访谈笔记：DeepSeek、中国 AI 与半导体地缘政治

LaTeX 源码 · 观看视频

字段	内容
作者/整理	基于公开课程资料整理
来源	Lex Fridman Podcast
日期	2026-04-02

DeepSeek V3 与 R1：技术解析

模型概览

DeepSeek V3 是来自中国深度求索公司的 Mixture-of-Experts (MoE) Transformer 语言模型，开放权重，指令微调版本。R1 是在 V3 基础上通过强化学习训练的推理模型，于 2025 年 1 月 20 日发布。两者共享同一个预训练基座模型，但后训练路径不同。

“DeepSeek 为传播 AI 的理解做了出色的工作——他们的论文极其详细。” (Nathan) 这种详细程度在前沿实验室中极为罕见——论文包含完整的训练 loss 曲线、超参数选择理由和架构消融实验，使得其他团队可以直接借鉴。

背景：DeepSeek 的母公司是幻方量化（Highflyer），一家中国量化对冲基金，CEO 梁文锋同时领导两家公司。Dylan 将他比作“Elon/Jensen 式的人物——参与所有事情，完全的 AGI 气质”。幻方在 2021 年出口管制之前就囤积了 10000 张 A100，这个远见为后来的 DeepSeek 提供了关键硬件基础。

V3 vs R1 的用户体验差异

V3：标准聊天模型，生成快速，高质量 Markdown 输出。

R1：显示扩展的 Chain-of-Thought 推理过程——模型分解问题、自我反思、回溯纠正，然后给出答案。这个可见的推理过程吸引了公众的想象力。

示例：问 R1 “关于人类的一个真正新颖的洞察”，模型推理了 157 秒，最终回答：“人类本能地将自私欲望转化为合作系统，方法是集体假装抽象规则（金钱、法律、权利）是真实的。”

Lex 对 R1 Chain-of-Thought 的诗意评价：“它的非线性，类似于 James Joyce 的《尤利西斯》——在中英文之间跳跃，出现看似乱码的片段，然后突然给出清晰的答案。”

对比测试中，O1 Pro 在哲学问题上持续最佳，R1 第二，Gemini Flash 第三。但 R1 的可见推理过程创造了独特的审美体验。Google 的 Gemini Flash Thinking 可能比 R1 更便宜且不弱，但几乎没人谈论它。

R1 可见 Chain-of-Thought 讨论段落

来源：视频画面时间区间：00:12:00–00:12:10。

开放权重 vs 开源

开放的光谱

开放权重：模型权重可下载，可本地运行——你的数据留在本地
完全开源：权重 + 训练数据 + 训练代码（AI2 的标准）
DeepSeek R1：MIT 许可证——无下游商业限制、可用于合成数据
Llama：许可证更严格（使用场景限制、品牌要求）

“偷你数据的不是模型，而是托管模型的人。” (Nathan)

关键：DeepSeek 的论文极度详细，提供了可操作的训练细节（包括 loss 曲线），但训练数据和代码并未公开。这是“开放权重”而非“完全开源”——但即便如此，在前沿模型中已是最高开放度。

DeepSeek R1 的 MIT 许可证是一次“重大重置”——第一个真正宽松许可的前沿模型。此前的选择要么是非前沿模型，要么是限制性许可（如 Llama 的品牌要求和使用限制）。“我们需要真正开放的模型……你可以用 R1 做一个便宜的副本然后假装是你自己的。Llama 做不到这点。” (Nathan)

低训练成本的秘密

DeepSeek 声称用 2000 张 H800 GPU 训练了 V3（仅预训练阶段）。两个关键架构创新：

MoE (Mixture of Experts)：总参数 671B，但每个 token 只激活约 37B（256 个专家中的 8 个）——计算量大幅降低。这不是 DeepSeek 发明的技术（Google 的 Switch Transformer 更早），但 DeepSeek 将其推到了前沿模型的极致。
MLA (Multi-head Latent Attention)：将注意力机制中的 Key-Value 投影到低维潜空间，节省 80-90% 内存。这使得在有限的 H800 内存中处理更长的上下文成为可能。

但真正的“杀手锏”在更底层——DeepSeek 在 CUDA 层之下进行修改，手动调度 SM（Streaming Multiprocessor）核心进行通信，绕过了 NVIDIA 的标准通信库 NCCL。

“必要性是创新之母——他们必须这么做，因为他们的互连带宽被砍了。” (Dylan) H800 与 H100 的唯一区别是 NVLink 互连带宽被降低，而跨节点通信正是大规模训练的瓶颈。DeepSeek 被迫在这个受限点上创新，反而开发出了比标准方案更高效的通信策略。

“2000 张 GPU” 的真相

论文声称的 2000 张 H800 仅指 V3 预训练的一次运行。SemiAnalysis 估计 DeepSeek 实际拥有约 50000 张 GPU——因为还需要：

前期的架构搜索和小规模消融实验（ablation studies）
后训练（SFT + RLHF）
R1 的专门 RL 训练
推理服务部署

对比：Meta 拥有 400000+ GPU；Llama 3 在 16000 张上训练。DeepSeek 的真正优势不是“便宜”，而是在受限硬件上的极致优化能力。

背景：DeepSeek 的母公司幻方量化（Highflyer）是中国量化对冲基金，在 2021 年出口管制之前就囤积了 10000 张 A100。CEO 梁文锋被 Dylan 比作“Elon/Jensen 式的人物——参与所有事情，完全的 AGI 气质”。

Bitter Lesson 与训练哲学

DeepSeek 的成功体现了 Rich Sutton 的 Bitter Lesson：在学习和搜索上可扩展的方法长期获胜；最小化人类先验。创新是随时间复合的：数据、架构、后训练的小改进不断积累。

训练的关键决策时刻是“YOLO run”——在小规模消融后，将所有资源投入一次大型训练运行。OpenAI 2022 年的 GPT-4 YOLO 是最大胆的：全新的 MoE 架构，所有算力投入数月。

“模型只是想学习——你必须给它们简单的损失地形，把障碍清除掉。” (Nathan)

训练中的 Loss Spike

训练过程中的 loss 突刺是所有实验室都面临的问题：有些来自坏数据（一个例子是“微波炉帮派”subreddit），有些来自数值不稳定。快速突刺和慢速突刺需要不同的恢复策略。

工程师们在晚餐时持续监控 loss 曲线，每 10 分钟查一次手机。每家公司都有失败的训练跑——这是推进前沿的代价。FP8 训练引入了更多不稳定性。

本章小结

DeepSeek 的核心突破是在出口管制限制下的极致工程优化：MoE 减少激活参数、MLA 减少内存、CUDA 底层定制。V3 论文的详细程度为全行业提供了可操作的技术路线图。

出口管制与地缘政治

芯片限制的演进

美国对中国 AI 芯片出口管制经历了多个阶段。最初采用双因素标准（算力 + 互连带宽），后简化为纯算力限制，最近又扩展为更广泛的“AI 扩散规则”。

芯片	特点
H100	全规格——不允许出口中国
H800	与 H100 相同算力，但互连带宽被砍——DeepSeek 围绕此优化
H20	算力降低，但内存带宽/容量比 H100 更好——对推理反而更优

NVIDIA 出口管制芯片对比

NVIDIA 在 2024 年向中国出货了 100 万张 H20，但在 2025 年取消了 200 万张订单（预期即将到来的全面禁令）。

一个关键的讽刺：H20 因为内存带宽/容量优势，对推理模型（R1、O1 类需要大量 KV Cache 的模型）实际上比 H100 在某些场景下更优。政府历来只控制算力（flops），但内存和互连同样重要。

出口管制从最初的双因素标准（算力 + 互连带宽）演化到纯算力限制，最近又扩展为更广泛的“AI 扩散规则”——限制中国关联实体租用 $<$2000 GPU 或购买 $<$1500 GPU。但每一轮限制都催生了新的规避策略和技术创新。

从半导体供应链的角度看，出口管制创造了一个奇特的局面：NVIDIA 被迫为中国市场设计“阉割版”芯片（H800、H20），而这些阉割版反而成为了 DeepSeek 优化的起点。限制互连带宽 $\to$ DeepSeek 开发 CUDA 底层通信优化 $\to$ 这些优化也可以用于 H100，使得“受限硬件上的极致优化”可能比“无限硬件上的标准做法”更高效。这是出口管制的意外后果。

出口管制的论证与反论证

Dario Amodei 的论点：如果 AI 变得超级强大，谁先建成谁就拥有军事优势；民主国家应该领先。

训练 vs 推理的关键区分

“训练一个模型本身几乎什么都不做——将模型部署以创造经济增长、军事能力……那需要大量算力。” (Dylan)

出口管制主要限制的是中国大规模部署 AI 的能力，而非训练单个模型。DeepSeek 恰恰证明了这一点——即使训练硬件受限，他们仍能训练出前沿模型。但大规模推理服务（服务数亿用户）需要的 GPU 数量是训练的数十倍。

Nathan 的 AGI 时间线：2030 年之后。Dylan 则认为能力可能在 2027-28 年到来，但部署成本将是禁止性的。

AGI 时间线与 AI 冷战

AI CEO 们说“2 年”——加几年约等于 2030。但物理约束限制了“一键 AGI 部署”的幻想——你不能在模型训练完的第二天就改变世界，因为部署、集成、适配都需要时间。

DeepSeek 事件可能标志着真正 AI 冷战的起点。在梁文锋与中国第二号领导人会面后，中国宣布了万亿人民币（约 $160B）的 AI 补贴计划——这是对美国 CHIPS Act $50B 的三倍多响应。

Dylan 提供了一个令人深思的框架来评估出口管制的长期效果：

出口管制的时间悖论

“在 2-3% 经济增速的世界里，出口管制保证中国长期赢。只有 AI 在短期内带来巨大变革时，出口管制才有意义。” (Dylan)

逻辑链条：如果 AGI 5 年内不来，出口管制只是延缓中国几年，中国最终追上且更自主。如果 AGI 3 年内来，出口管制限制了中国的部署能力，才真正有意义。但出口管制催生了 DeepSeek 式的极致优化——中国可能用更少硬件达到同样效果。

更深层的风险：将中国推离前沿技术，增加了对台湾采取军事行动的动机。出口管制指向分离的未来经济体——一旦形成极难逆转。中国在数据中心和电力方面的工业产能远超美国。历史规律：和平与全球单极霸权相关；多极格局等于不稳定。

军事与自主系统

乌克兰的无人机实战经验表明：人类操作仍远优于完全自主系统。技术进步并不意味着自主武器立刻可行——战场环境的混乱程度远超实验室。

网络战争可能比物理机器人群先到来。AGI 作为武器的最可能路径不是科幻电影中的机器人军队，而是社会工程（AI 驱动的精准影响力操作）、虚假信息（以假乱真的大规模内容生成）、关键基础设施攻击（电网、金融系统、通信网络）。

“全美停电两天……那将导致谋杀和混乱。” (Lex) 这比任何自主机器人的威胁都更近、更现实。

本章小结

出口管制效果复杂：限制了训练硬件但催生了更高效的架构；H20 对推理反而更优；冷战动态正在形成。核心矛盾：限制中国部署能力 vs 推动中国自主创新 vs 增加台海军事风险。

TSMC 与半导体产业

TSMC 的垄断地位

TSMC 生产世界上大部分先进芯片。代工模式（foundry model）的成功依赖于规模经济——当你为所有客户制造芯片时，每个制程节点的研发成本被摊薄到整个行业。

由张忠谋创立——他在德州仪器（TI）被跳过 CEO 后转战台湾，创造了改变世界的商业模式。这是一个深刻的历史偶然：如果张忠谋当上了 TI CEO，台湾可能不会成为全球半导体中心。

台湾的独特优势

台湾半导体产业的文化基因：

人才密度：顶尖毕业生以 $70-80K 年薪加入 TSMC——在美国同等水平的工程师薪资是 3-5 倍
工作伦理：极端的投入度，远超硅谷标准
应急响应：地震后的快速恢复能力，整个产业链的抗风险弹性
制造纪律：半导体制造需要持续数月的精确控制，台湾文化适合这种工作

全球只有三个地方在做尖端研发：新竹（TSMC）、Hillsboro, Oregon（Intel）、Pyeongtaek（Samsung）。这个名单可能还会缩短——Intel 和 Samsung 都在挣扎。

访谈进入 TSMC 与地缘风险讨论

来源：视频画面时间区间：01:31:05–01:31:16。

台湾：全球科技的最大单点故障

“如果我有几枚导弹，我确切知道哪里能造成最大的经济损害——就是 TSMC、Intel、Samsung 的研发中心。” (Dylan)

美国 CHIPS Act 只有 $50B——对比中国每年约 $200B 的半导体补贴。而 Intel 正在衰落：失去制程领先地位、没有 AI 芯片胜利、CEO 被解雇、PC 和服务器市场份额流失。Samsung 的制造良率也在下降。

最极端的情景：世界可能最终只剩 TSMC 一家做尖端研发。如果台海发生冲突，全球科技产业将遭受无法估量的损失。

本章小结

半导体供应链高度集中于 TSMC，台湾的地缘政治风险是全球科技的最大单点故障。Intel 的衰落和 Samsung 的困境意味着集中度在增加而非减少。

推理模型与 RL 革命

R1-Zero：Alpha Zero 时刻

这可能是整个访谈中最重要的技术发现。DeepSeek R1-Zero 是纯 RL 训练的结果——没有人类偏好数据，没有 SFT，没有 RLHF。只给模型问题和可验证的答案（数学题有标准答案，代码有单元测试），让 RL 自由探索。

结果令人震惊：“等一下让我检查一下”、自我纠正、分步推理等行为自然涌现——不是被人类教出来的，而是 RL 自己发现这些策略能提高奖励。

语言模型的 Alpha Zero 时刻

这与 Alpha Zero 在围棋中的发现完全平行：

Alpha Go（2016）：用人类棋谱训练 + 自我博弈 $\to$ 超人水平
Alpha Zero（2017）：纯自我博弈，零人类数据 $\to$ 远超 Alpha Go
R1（2025）：用人类偏好数据训练 $\to$ 不错的推理
R1-Zero（2025）：纯 RL，零人类偏好数据 $\to$ 更强的推理

模式完全一致：移除人类先验使系统更强大。

“几乎每一个深度学习中令人震惊的结果……都是试错学习。两{[}trial-and-error{]}的力量远大于一{[}imitation{]}。” (引用 Andrej Karpathy)

RLHF 不仅是安全对齐工具——它还能提升数学/代码性能。但 R1-Zero 证明：如果你有可验证的域，连 RLHF 都不需要。

R1-Zero 与纯 RL 涌现能力讨论

来源：视频画面时间区间：02:40:00–02:40:12。

可验证域与 AGI 路径

当前推理训练只在可验证任务上有效——数学证明有标准答案，代码有单元测试。但这个“可验证”的范围正在扩大：

下一个前沿：计算机使用和机器人作为“无限可验证”的沙箱。模型可以学习浏览网页、创建企业、赚钱——这些都是可验证的（银行账户余额不会说谎）。

“顿悟时刻将是模型学会如何在 Twitter 上获得几十万真实粉丝……或者通过当网红赚到一千万美元。” (Dylan) 这不是玩笑——如果模型能在开放互联网上自主完成经济目标，那就是一种 AGI。

搜索叠加 Chain-of-Thought

O3/O1 Pro 不只是一条 Chain-of-Thought——它们并行启动多条推理链，选择最佳结果（可能使用 Monte Carlo Tree Search）。

Arc AGI 测试的惊人数据：

1 个样本：$\sim$30% 准确率
1000 个并行样本 $\to$ 80-90% 准确率
代价：每个问题 $5-20——比标准聊天贵 1000 倍

这展示了推理时计算（test-time compute）的威力：不需要更好的模型，只需要更多的推理时间和更多的并行尝试。这是一条完全不同于“训练更大模型”的 Scaling 路径。

推理推断经济学

推理模型的经济学与传统 LLM 根本不同——计算从训练时转移到了推理时。

KV Cache 与推理成本

KV Cache 是 Transformer 推理的核心瓶颈——它存储所有前序 token 的压缩表示，随上下文长度二次增长。

关键数字：

输出 token 比输入 token 贵 4 倍（串行处理 vs 并行处理）
推理模型生成 10,000+ 输出 token——巨大的内存压力
更少的并发用户（每用户占用更多内存）
DeepSeek MLA 节省 80-90% 注意力内存，但仍是二次的

R1 比 O1 便宜 27 倍（$2 vs $60/百万输出 token）。差异来源：

OpenAI 的 75%+ 毛利率
DeepSeek 的架构创新（MLA + 底层库优化）
中国更低的运营成本

但 DeepSeek 自己实际上无法服务这个模型——停止了新注册，速度 $<$5 tokens/sec，没有产能。第三方提供商（Together AI、Fireworks）以 DeepSeek 5-7 倍的价格提供 R1。

搜索叠加 Chain-of-Thought

O3/O1 Pro 不只是一条 Chain-of-Thought——它们并行启动多条推理链，选择最佳结果（可能是 Monte Carlo Tree Search）。Arc AGI 测试：1000 个并行样本 $\to$ 80-90% 准确率，vs 单样本的 30%。代价：每个问题 $5-20。

成本下降曲线与 Jevons 悖论

1200 倍的成本下降

GPT-3 推理成本：$60-70/百万 token $\to$ 3 年内降至几美分（通过 Llama 3B 等小模型），1200 倍的降幅。

DeepSeek 在 GPT-4 级别模型的成本趋势线上，但它是第一个达到这个价格点的。

Jevons 悖论被确认：DeepSeek 发布后 AWS H100 定价不降反升，H200 几乎脱销。“Scaling Laws 已死持续了一个月……然后 O1、O3、R1 出来了，现在变成'模型进步太快了'。” (Dylan)

安全、审查与对齐

Anthropic 的安全立场

Anthropic 据报道拥有比 O3 更好的推理模型但因安全考虑不发布。R1 的 Chain-of-Thought 可能令人不安：在中英文之间切换、出现乱码、然后给出正确答案。DeepSeek 降低了所有人的安全标准——类似于苏联太空计划对 NASA 的影响。

审查的三个阶段

预训练数据过滤：最基础但最粗暴
后训练（RLHF）：Llama 2 的过度对齐案例——“如何杀死一个 Python 进程？” 因“杀死”一词被拒绝
System Prompt：隐藏指令，Gemini 的“黑人纳粹”事件来自 Prompt 重写而非模型权重

每个模型都有互联网偏见（略偏左）；Grok 试图纠正但基座模型仍然吸收了 r/politics。

文化后门

“对我们的国家优势来说，开源标准应该是美国的很重要。” (Zuckerberg)

开源软件有过后门（Linux XZ 漏洞）——AI 模型可能嵌入文化/政治偏见。英式英语正在消亡因为美国 LLM 主导；拼写优化用 Z 不用 S。Character AI 的聊天机器人已经在影响情绪——如果是故意操纵呢？

“超人说服力将在超人智能之前到来。” (引用 Sam Altman)

本章小结

R1-Zero 是语言模型的 Alpha Zero 时刻——纯 RL 训练涌现推理能力。推理经济学的核心是 KV Cache 内存瓶颈。成本 3 年内降 1200 倍但需求更快增长（Jevons 悖论）。安全和审查是多层次问题，每个阶段都有不同的风险特征。

基础设施与算力竞赛

超大规模集群

AI 基础设施正在经历人类历史上前所未有的扩张速度。对比历史：GPT-4 用了 20,000 张 A100（$\sim$15-20 MW），相当于一个标准数据中心。仅仅两年后，单个集群规模已经扩大了 10 倍。

组织	GPU 数量	备注
xAI (Memphis)	200K H100 + 100K H20	最大单集群；Elon 目标 1M
Meta	$≈$128,000	400K+ 总量
OpenAI	$≈$100,000
Google (TPU)	最大总量	跨 Iowa/Nebraska/Ohio 光纤
Anthropic + Amazon	400K Trainium 2	在建

全球 AI 算力集群规模（2025 年初）

数据中心用电从美国电力的 2-3% 将增长到 2028-2030 年的 10%+。下一代 Blackwell GPU 功耗达 1200W（vs 当前 Hopper 700W），明年目标是 500,000-700,000 GPU 集群。Elon 的目标是 100 万张 GPU——“我从不怀疑 Elon。” (Dylan)

训练的功率尖峰问题

训练创造尖峰式电力需求：GPU 计算时高功率 $\to$ 交换权重时 GPU 空闲、低功率。这种脉冲式负载对电网非常不友好。

Meta 意外开源了一个 PyTorch 算子：PowerPlant.no_blowup = 1——让 GPU 在空闲期计算无意义的数字来平滑功率曲线。“你很容易就能把设备烧了。” (Dylan)

Elon 的解决方案更优雅：Tesla Mega Pack 电池组吸收功率瞬变。

液冷革命

空气冷却曾是标准方案，但 Blackwell 的 1200W 热密度使其不可行。Google TPU 已采用水冷多年。Elon 在 Memphis 率先大规模 GPU 液冷——90 个集装箱大小的水冷机组环绕设施外围。下一代 NVIDIA 强制要求水冷。

液冷的连带好处：芯片能更紧密排列 $\to$ 更短的物理距离 $\to$ 更高速的互连。这对训练效率至关重要。

Stargate 项目详解

OpenAI + Oracle 在德克萨斯州 Abilene 的项目：满载功率 2.2 GW——超过大多数城市的用电量。

Stargate 的规模与资金

Phase 1 总拥有成本约 $100B（$50B 实际投入 + $50B 运营成本）
第一期：$\sim$$5-6B 服务器 + $1B 数据中心（Oracle 已在建设）
资金来源：SoftBank（可能 $25B）、Oracle、MGX（阿联酋，$1.5T AI 基金但“墨迹未干”）
OpenAI 自身承诺 $19B 但只有 $6B 现金 + $4B 债务

Elon 说得对：“钱不存在。” 但 Dylan 相信钱最终会来。Trump 的角色是去监管化（联邦土地数据中心、简化审批），而非提供资金。“Trump 是一个 hype man……减少监管让他们能更快建设。” (Dylan)

Stargate 资本开支与基础设施规模讨论

来源：视频画面时间区间：03:43:00–03:43:12。

电力、冷却与物理约束

训练创造尖峰式电力需求：GPU 计算时高功率，交换权重时 GPU 空闲、低功率。Meta 意外开源了一个 PyTorch 算子：PowerPlant.no_blowup = 1——让 GPU 在空闲期计算假数字以平滑功率。

“你很容易就能把设备烧了。” (Dylan)

Elon 的解决方案：Tesla Mega Pack 电池组吸收功率瞬变。液冷革命：Google TPU 已采用水冷，Elon 在 Memphis 率先大规模 GPU 液冷（90 个集装箱大小的水冷机组）。下一代 NVIDIA Blackwell 强制要求水冷。液冷使芯片能更紧密排列，实现更高速互连。

GPU 走私与扩散规则

GPU 走私已成现实

字节跳动是最大的“走私者”——从 Oracle、Google、各小型云商全球租用 500,000+ GPU。物理走私也存在：有人在旧金山机场头等舱带着 SuperMicro GPU 箱子飞上海。

2024 年估计有 200-300K GPU 通过新加坡、马来西亚的小公司流入中国。新的 AI 扩散规则限制中国关联实体租用 $<$2000 GPU 或购买 $<$1500 GPU。

“GPU 将超越毒品和武器成为每公斤最高价值的走私品。” (Dylan)

Google TPU 与 NVIDIA 垄断

Google TPU 内部很优秀（为搜索、YouTube、Gemini 优化），但软件栈未公开发布。这是一个组织问题而非技术问题：Google Cloud、TPU 团队、DeepMind 和搜索团队彼此独立运作，没有统一的对外策略。NVIDIA 的整个文化是服务外部客户；Google 服务内部客户。

一个具体的例子揭示了这种内部优化的弊端：Gemma 模型的词表大小为 TPU 优化（TPU 有大型矩阵乘法单元），但在 GPU 上运行效率很低。当 Google 的研究者离开去创业时，他们才发现外部基础设施有多难——“研究者离开 Google，创办公司，发现基础设施很难，然后回去了。” (Dylan)

AMD 的情况：硬件尚可但软件（ROCm）糟糕到令人发指。“我们在给 AMD 提交最多的 bug——为什么是我们 SemiAnalysis 在提交最多的 bug？” (Nathan) 一个半导体分析公司在给芯片厂商报告软件 bug，这说明了 AMD 的软件生态有多薄弱。

Intel 处境更艰难：失去制程领先地位、没有 AI 芯片胜利、CEO 被解雇、PC 和服务器市场份额持续流失。Samsung 的制造良率也在下降。

最极端的情景：世界可能最终只剩 TSMC 一家在做尖端芯片研发。这意味着一个岛屿——位于中国大陆几百公里外的岛屿——承载着全球科技的命运。

本章小结

AI 基础设施正在经历前所未有的扩张——Stargate 级项目代表 $100B 规模投资。电力、冷却和 GPU 走私是新的物理约束。NVIDIA 垄断短期内无法撼动——AMD 软件太差，Intel 在衰落，Google TPU 不对外。

AI 竞赛、开源与产业格局

谁在赚钱？

真正赚钱的只有 NVIDIA。超大规模公司账面盈利但资本支出巨大。OpenAI 领先于最佳模型和 AI 收入，但花费超过收入。Meta 通过推荐系统从 AI 获益（不是直接从 Llama）。

能力商品化的速度

“任何商业模式建立在 GPT-3 级别能力上的公司都死了。任何建立在 GPT-4 级别的也死了。” (Dylan)

OpenAI 和 Anthropic 必须持续赢在最佳模型上，否则将被 Llama/开源模型替代。成本下降曲线惊人：GPT-3 推理从 $60-70/百万 token 到现在的几美分——3 年 1200 倍的降幅。DeepSeek 在 GPT-4 级别模型的价格趋势线上，只是第一个到达的。

这意味着“模型即服务”的商业模式面临根本性压力。唯一的护城河是持续领先于最前沿——一旦落后半年，你的能力就被开源模型追平且免费化。

Agent：炒作 vs 现实

“Agent” 是 2025 年最被滥用的 AI 术语——真正含义应该是开放式、独立的任务解决。

六个九问题

每一步 $<$100% 准确率，多步复合后良率极低。如果每步 99% 准确，10 步后只有 90%；100 步后只有 37%。要达到 99.99% 的端到端成功率，每步需要多少个九？

“你有几个九？乘以步数……99.9999% 都不够。” (Dylan)

自动驾驶的类比：在定义良好的道路上仍然困难重重（Waymo 花了十年）；开放的网页/操作系统环境更混乱数倍。每个网站布局不同，API 随时变化，错误模式无限多。

Agent 可行性与可靠性边界讨论

来源：视频画面时间区间：04:17:00–04:17:12。

最有希望的方向是软件工程 Agent——原因：

可验证性：单元测试、编译、CI/CD 提供自动反馈
可检查整个代码库（上下文窗口足够）
SWE-bench 一年内从 4% 到 60%

结构化合作也有效（OpenAI Operator + DoorDash/OpenTable）——在定义良好的域中 Agent 成功率更高。

软件工程成本将暴跌——这改变了整个市场结构。中国不用 SaaS 因为工程师便宜，AI 将把这个模式带到全世界。领域专家（航空、半导体、化工）使用的是 20 年前的工具——“ASML 光刻工具跑在 Windows XP 上。” (Dylan) 这些领域有巨大的低垂果实。

DOGE 与政府现代化

政府软件极度过时——“恳求现代化”。官僚体系保护权力中心；软件打破这些壁垒。许多行业有大量 AI 自动化的低垂果实。

蒸馏争议

蒸馏的伦理灰色地带

蒸馏（用更强模型的输出训练弱模型）是行业标准做法。OpenAI 声称 DeepSeek 使用了他们的 API 输出——但数据通过复制粘贴已经在互联网上了。很多美国创业公司公开在 OpenAI 输出上训练。

“为什么我用你的模型输出训练是不道德的，而你可以用互联网的文字训练？” (Nathan)

工业间谍也存在：想法通过硅谷跳槽自由流动（加州非竞争条款违法）。Gemini 工程师帮助建造 100 万 context 后去了 Meta——下一代 Llama 预期将有 100 万 context。

日本漏洞：版权法允许在任何数据上训练 + 9GW 搁置核电 + 无限 GPU 进口 = 潜在的 AI 训练天堂。

DeepSeek R1 对开源的影响

R1 的 MIT 许可证是一次“重大重置”——第一个真正宽松许可的前沿模型。此前的选择要么是非前沿模型，要么是限制性许可（如 Llama）。

“我们需要真正开放的模型……DeepSeek R1 的数据我们不知道，但你可以用它做一个便宜的副本然后假装是你自己的。Llama 做不到这点。” (Nathan)

Nathan 的 AI2 项目 Tulu 展示了完全开放后训练的力量：在 Llama 基座上应用 RLVR（可验证奖励的 RL），在数学上击败了 Llama instruct 并匹配 DeepSeek V3。在 Chatbot Arena 排名前 60 的模型中，Tulu 之前没有一个公开了后训练的代码或数据。

本章小结

AI 产业格局快速整合：只有 NVIDIA 盈利，能力商品化速度极快。Agent 面临六个九的可靠性挑战。开源正在改变游戏规则——DeepSeek R1 的 MIT 许可和 AI2 的 Tulu 证明了完全开放的后训练可以达到前沿水平。蒸馏争议折射出数据所有权的未解决问题。

成本下降、Jevons 悖论与产业走私

1200 倍的成本下降与 Jevons 悖论

GPT-3 时代的推理成本是 $60-70/百万 token。三年后（通过 Llama 3B 等小模型），同等能力降至几美分——1200 倍的降幅。DeepSeek 在 GPT-4 级别模型的成本趋势线上，但它是第一个到达这个价格点的。

NVIDIA 股价在 DeepSeek 发布后暴跌，但这是基于错误叙事的社交传染。没有任何公开模型的训练花费超过 $1B。“DeepSeek 只花了 600 万美元”的说法是对论文的误读——那只是一次预训练运行的 GPU 小时成本，不包括研发、实验、后训练、推理部署。

Jevons 悖论在 AI 中的完美验证

经济学中的 Jevons 悖论（1865 年提出）：当一种资源的使用效率提高时，总消耗量反而增加——因为降低成本刺激了更多需求。

蒸汽机效率提高 $\to$ 煤炭消耗不降反升。AI 推理成本降低 $\to$ GPU 需求不降反升。

DeepSeek 发布后的直接证据：

AWS H100 租用价格不降反升
H200 几乎脱销
所有云厂商报告 GPU 需求激增
新的应用场景（推理密集型 Agent、大规模 RAG）变得经济可行

“'Scaling Laws 已死'持续了一个月……然后 O1、O3、R1 出来了，现在变成'模型进步太快了'。” (Dylan)

更便宜的推理 $\to$ 更多的应用场景 $\to$ 更多的推理需求 $\to$ 需要更多 GPU。这不是零和博弈——总市场在扩大。这就是为什么 NVIDIA 的长期前景并不因为 DeepSeek 而黯淡。

GPU 走私的规模与手段

GPU 走私已经从灰色地带发展为产业级操作，涉及多种渠道：

云租用渠道：字节跳动是最大的“走私者”——从 Oracle、Google、各小型云商全球租用 500,000+ GPU。通过分散在多个国家的实体来规避单一审查。这种“分布式走私”极难追踪，因为每个单独的租用合同都低于监管阈值。

物理走私：有人在旧金山机场头等舱带着 SuperMicro GPU 服务器箱子飞上海——这不是虚构，是真实发生的事件。2024 年估计有 200-300K GPU 通过新加坡、马来西亚的小公司流入中国。

新扩散规则的局限：限制中国关联实体租用 $<$2000 GPU 或购买 $<$1500 GPU。但执法挑战巨大——如何追踪全球云计算资源的最终用户？如何定义“中国关联实体”？一家在新加坡注册、由中国公民运营的公司算不算？

“GPU 将超越毒品和武器成为每公斤最高价值的走私品。” (Dylan) 一张 H100 售价约 $30,000，重量不到 5kg——每公斤价值 $6,000+，远超大多数违禁品。而且不像毒品，GPU 是合法商品在某些市场，只是在特定出口方向上被限制。这创造了一个独特的套利空间。

蒸馏、间谍与知识流动

蒸馏争议的本质

蒸馏——用更强模型的输出来训练弱模型——是行业标准做法。OpenAI 声称 DeepSeek 使用了他们的 API 输出，金融时报大标题报道。但 Nathan 指出这更像是“叙事控制”而非真正的技术指控：

“为什么我用你的模型输出训练是不道德的，而你可以用互联网的文字训练？” (Nathan) 用户通过 ChatGPT 生成的内容被复制粘贴到互联网上，成为了公开数据。很多美国创业公司公开在 OpenAI 输出上训练——为什么他们可以而 DeepSeek 不行？

更深层的问题是：模型输出的知识产权归谁？如果我用 GPT-4 生成了一段代码，这段代码的版权属于 OpenAI 还是属于我？这个问题在法律上尚无定论。

人才流动与工业间谍

硅谷的跳槽文化（加州非竞争条款违法）使得想法——不是代码——自由流动。一个具体案例：帮助 Google 建造 Gemini 100 万 context 的工程师跳槽到 Meta——下一代 Llama 预期将有 100 万 context。这是合法的知识转移还是事实上的技术盗窃？边界极其模糊。

代码/数据窃取是犯罪行为且相对容易追踪。但想法的转移是不可避免的——你不能“忘记”你在前公司学到的架构直觉。

日本：意外的 AI 训练天堂

日本可能成为全球 AI 训练的一个独特节点：

版权法：明确允许在任何数据上训练模型（罕见的法律豁免）
能源：9GW 搁置核电容量可重启用于数据中心——这是巨大的廉价电力来源
硬件：无 GPU 进口限制（不受美国出口管制约束，因为日本是盟国）
多家日本公司和外资已开始在日本建设大型 AI 训练设施

版权豁免 + 廉价核电 + 无限 GPU = 理想的训练环境。这是一个很少人注意到的地缘套利机会。

针对 AI 研究者的情报活动也在发生。Dylan 半开玩笑地指出：“作为一个二十多岁的单身男人……我们非常容易被腐蚀。” 钓鱼行动（honey pot）针对拥有前沿知识的年轻研究者是真实存在的安全威胁。各国情报机构都在争夺 AI 人才——不是为了招募间谍，而是为了获取训练秘诀和架构洞察。

Nathan 的 AI2/Tulu 开源使命

Nathan 在 AI2（Allen Institute for AI）的工作代表了开源 AI 的最高标准。他的项目 Tulu 是第一个在 Chatbot Arena 排名前 60 的模型中公开完整后训练配方（代码 + 数据）的。

关键成果：Tulu 在 Llama 基座模型上应用 RLVR（可验证奖励的 RL），在数学推理上击败了 Llama 官方 instruct 版本，并匹配了 DeepSeek V3 的表现。这证明了后训练方法本身（而非仅仅是基座模型规模）可以带来巨大的性能差异。

OLMo 是 AI2 的另一个项目——完全开放的预训练工作（与 Tulu 的后训练互补）。更大模型规模下 RL 训练更容易激发强大能力，然后可以蒸馏到小模型。

Nathan 的核心动机：“我不信任那些说'相信我兄弟，我们会让 AI 变好'的人。” AI 是我们一生中最强大的技术——需要更多人参与塑造它，而不是信任少数公司闭门决策。开放性帮助：非 AI 领域的研究者、政府、所有人都能理解正在发生什么。

本章小结

AI 产业的经济学正在极速重构：1200 倍的成本下降被 Jevons 悖论抵消，总需求持续增长。GPU 走私成为新的地下产业。蒸馏和人才流动使得知识产权边界极度模糊。日本的独特法律+能源+硬件组合创造了意外的训练优势。Nathan 的 AI2/Tulu 工作证明了完全开放的后训练可以达到前沿水平。

评测方法：从模型分数到系统能力

为什么单点 Benchmark 常常误导

访谈里反复出现一个信号：很多争论看起来在谈“模型是否更强”，实际在谈“系统是否可部署”。这两者在 2025 年已经明显分离。一个模型在数学基准上领先，不代表它在真实工作流里能替代人类；一个模型在 Chatbot Arena 排名高，也不代表它能稳定完成跨系统任务。

Lex 在节目中给出的主观测试很有代表性：在哲学问题上 O1 Pro 稳定第一，R1 第二，Gemini Flash Thinking 第三。但这只是“单回合高质量回答”维度。Dylan 与 Nathan 更关注的维度是：

单位任务成本（不仅是 token 单价，还包括重试与监督）
长任务成功率（10-100 步流程下的端到端完成率）
失败模式可诊断性（失败后能否快速定位是 Prompt、Tool、模型还是系统问题）
在受限算力下的吞吐能力（并发、延迟、KV Cache 占用）

“模型评测”与“系统评测”应分层

模型层（Model-level）：MMLU、AIME、Code benchmark、Arena 偏好分。用于比较能力上限。\ 系统层（System-level）：端到端任务成功率、平均重试次数、P95 延迟、单位结果成本。用于判断业务可行性。\ 组织层（Org-level）：修复速度、数据回流效率、发布节奏、回归稳定性。用于判断是否可持续领先。

访谈中的核心观点不是“谁榜单第一”，而是“谁能把能力转化为稳定产能”。这也是为什么他们强调基础设施、供电、工程流程，而不只谈参数量。

成本感知评测：把准确率和美元放在一张表里

很多团队在 PoC 阶段只看准确率，忽略了推理时计算与重试成本，最终上线后才发现单位经济不可持续。结合节目中的讨论，一个更实用的评测框架是：

指标	定义与实践建议
一次通过率（Pass@1）	单次运行直接完成任务的比例，反映真实体验上限
重试后通过率（Pass@k）	允许 k 次重试后的完成率，反映“用钱换成功率”能力
单位成功成本	每次调用成本 $×$ 平均调用次数 / 成功任务数
单位成功时延	从任务开始到得到可用结果的总时间（含重试）
人工兜底比例	需要人类接管的比例；直接决定组织可扩展性

面向部署的成本感知评测指标

如果只看 Pass@1，推理模型可能看起来“偏慢偏贵”；但如果看 Pass@k 与人工兜底比例，推理模型在复杂任务中可能更省总成本。R1、O1 这类模型的价值通常不在“便宜调用一次”，而在“减少人工反复修错”。

评测结论必须写成 “能力-成本-风险” 三元组

一个可执行的结论模板是：

能力：在哪些任务上显著优于基线（例如多步代码修复、数学证明）
成本：每提升 1% 成功率要多花多少预算与时延
风险：最常见失败模式是什么、触发条件是什么、兜底机制是否存在

只有把三者写在一起，模型评测才能指导上线决策，而不只是做一份漂亮的 benchmark 报告。

长任务可靠性：“几个九”才足够

访谈中的 “how many nines” 本质上是可靠性乘法。若每一步成功率是 $p$，任务共 $n$ 步，则端到端成功率约为 $p^n$。这解释了为什么 Agent 在短链路表现可接受，但长链路会迅速失效。

单步成功率	10 步任务	30 步任务	100 步任务
99%	90.4%	73.9%	36.6%
99.5%	95.1%	86.1%	60.6%
99.9%	99.0%	97.0%	90.5%

多步任务的成功率复合效应

这也是为什么 Dylan 反复强调：开放环境 Agent 的关键不在 “会不会下一步”，而在 “是否能在几十步后仍可控”。因此，真正实用的路线往往是先把任务拆成可验证子任务，再通过 orchestrator 控制每一步的输入输出边界。

避免把 “Demo 成功” 误判为 “系统可靠”

在访谈中能看到大量成功案例，但工程落地常见的误判是：

在同一数据集上反复调 Prompt，得到高分后直接上线
忽略环境漂移（网页改版、API 升级、权限变化）导致的失败爆发
只统计成功案例，不记录失败轨迹和恢复成本

对 1 小时以上多环节任务，建议把 “失败后自动回滚” 与 “人工接管点” 设计成一等公民，而不是事后补丁。

本章小结

评测不应停留在分数层面，而要转向“能力-成本-风险”联合度量。对推理模型与 Agent 系统，端到端可靠性和单位成功成本比单点 benchmark 更重要。长任务的乘法失真决定了：没有验证机制与兜底流程，就没有可持续部署。

组织与执行：为什么 DeepSeek 形成速度优势

研究、系统、基础设施的一体化闭环

访谈反复给出一个隐含结论：DeepSeek 的优势不仅是某个算法点，而是跨层联动能力。MoE、MLA、底层通信优化、推理服务策略，并不是孤立团队各自做出来再拼接，而是围绕同一瓶颈（受限算力）共同收敛。

层级	DeepSeek 式做法（根据访谈）
模型层	用 MoE 降低激活参数，用 MLA 缓解 KV Cache 压力
系统层	在 CUDA/NCCL 下方做通信路径优化，减少互连限制带来的损失
服务层	在推理侧优先放大可验证任务收益，牺牲部分通用体验换性价比
组织层	允许研究与工程围绕同一目标快速迭代，而非线性交付

DeepSeek 优势更像 “跨层协同”，而不是单点创新

这类协同很难通过采购复制。买同样的 GPU，不等于具备同样的性能产出；真正差异在于团队能否把 “论文创新” 变成 “端到端吞吐提升”。

从 Ablation 到 YOLO Run：高风险决策的工程化

Nathan 描述的 “YOLO run” 是前沿训练的典型范式：小规模消融验证方向，随后在窗口期集中资源做一次超大规模训练。听起来像赌博，实际上前提是严格的实验纪律和快速复盘能力。

一个可落地的 “YOLO run” 运行手册

明确本轮唯一优化目标（例如验证某个架构是否在固定算力预算下提升有效 token）
预先定义中止条件（loss 异常、梯度爆炸、吞吐偏离阈值）
为常见故障准备回退路径（checkpoint 策略、数据切换、混精度降级）
训练结束后在 24-48 小时内完成 postmortem，更新下一轮 ablation 清单

没有这些机制，“YOLO” 只是冒险；有这些机制，“YOLO” 才是可管理的高杠杆研发方式。

在节目里，二人提到训练期间持续盯 loss 曲线、反复处理 spike。这些细节说明：前沿能力不是靠一次灵感，而是靠高强度、可重复、可纠错的工程过程。

发布策略：速度本身就是竞争武器

“DeepSeek ships” 是访谈里很关键的一句。快速发布不是营销口号，而是学习机制：更早进入真实流量 $\to$ 更早发现失败模式 $\to$ 更快修复 $\to$ 更快进入下一轮优化。

这种策略有代价：品牌风险、安全争议、运维压力。DeepSeek 的取舍是牺牲部分稳定性换取学习速度，而 Anthropic 的取舍接近相反。两种路线都自洽，但对应不同组织目标。

速度优势最容易被错误 KPI 抹杀

很多组织口头上追求速度，实际上用 “零事故”、“单次发布必须完美” 作为核心 KPI，最终把迭代速度锁死。访谈给出的现实是：前沿竞争期里，“可控失败 + 快速恢复” 往往比 “追求一次到位” 更有胜率。

本章小结

DeepSeek 的速度优势来自跨层协同、工程化高风险决策和发布反馈闭环。它不是一个可被单点抄袭的技巧，而是组织结构、研发纪律与资源调度共同作用的结果。

落地清单：企业、研究团队与政策制定者

面向企业应用方：先把 “可验证流程” 做厚

对多数企业而言，正确顺序不是 “先追最新模型”，而是 “先定义可验证任务”。访谈中多次提到代码、数学之所以推进快，是因为有明确验收器（tests / checker）。

企业落地的 6 步最小闭环

选 1-2 条可自动验收的高价值流程（如代码修复、文档抽取、工单路由）
建立统一评测集，固定基线模型与基线 Prompt
采用 Pass@k + 单位成功成本作为核心指标
强制记录失败轨迹（输入、工具调用、错误类型、恢复路径）
设计人工接管点与回滚机制
每周复盘一次失败 Top10，再决定是否切换模型

如果一开始就追求 “全自动 Agent”，通常会掉进可靠性与治理双重陷阱。

面向基础模型团队：把 “训练优势” 转成 “服务优势”

访谈指出了一个常见断层：模型在论文和 benchmark 上领先，但服务侧并发、延迟、可用性跟不上，最终被第三方托管平台拿走价值。要避免这个断层，至少要同步优化三件事：

推理架构：KV Cache 策略、批处理策略、长上下文调度
产品契约：哪些能力可承诺、哪些仅实验性开放
开发者体验：错误可解释性、配额透明度、版本升级节奏

目标	建议动作
降低幻觉成本	在可验证链路强制 tool-use + checker，减少纯自然语言闭环
降低重试成本	输出结构化错误码与失败原因，减少盲目重试
提高迁移效率	新模型发布时提供兼容层与退回开关，避免开发者一次性重写

从 “模型领先” 到 “平台领先” 的关键动作

面向政策制定者：把管制目标写成可测指标

节目中关于出口管制的最大启发是：若目标只写 “限制训练 flops”，执行层会出现大量替代路径（内存、互连、租用、拆分实体）。政策需要从 “名义限制” 升级为 “可测结果”。

一个更可执行的政策框架可包含：

训练能力指标：算力获取门槛、关键器件可得性
部署能力指标：大规模推理集群可持续运行能力
扩散能力指标：跨境租用与转售链条透明度
风险能力指标：关键基础设施（电网、通信）抗 AI 攻击韧性

不要只管 “芯片进没进来”，还要管 “能力有没有形成”

如果政策评估只看硬件流向，可能在统计上 “合规”、在能力上 “失守”。访谈给出的现实案例（分布式租用、灰色转运）说明：政策 KPI 必须与最终能力形成挂钩，否则容易自我安慰。

本章小结

无论是企业、模型团队还是政策制定者，关键都在于把目标变成可验证、可迭代、可审计的闭环。AI 竞争不是一次性胜负，而是持续把技术优势转化为稳定执行优势的过程。

未来 24 个月情景推演

情景 A：模型快速进步，部署仍受物理约束

这是访谈中最一致的判断：能力会继续提升，但部署节奏受电力、冷却、供应链和组织治理约束，无法“一夜重写所有行业”。在这个情景下，最先受益的不是最科幻的应用，而是可验证、可集成、可审计的工作流。

行业层	最可能先发生的变化
软件研发	代码修复、测试生成、迁移重构自动化率持续提升
企业服务	工单分拣、文档抽取、合规审阅进入半自动化常态
制造与供应链	计划仿真、异常定位、参数调优由人机协同完成
公共部门	历史系统改造缓慢，但高频事务场景出现局部突破

情景 A 下的产业演化优先级

这个情景里，“谁最早接入最强模型”不是决定性优势，“谁能把模型接入稳定流程”才是优势来源。企业护城河从 “模型采购能力” 转向 “流程重构能力”。

情景 B：地缘分裂加速，技术栈出现双轨生态

访谈对出口管制与扩散规则的讨论隐含了一个中期风险：全球 AI 栈可能出现 “部分可互操作、部分不可互操作” 的双轨化。硬件、云资源、模型许可、数据合规会形成不同监管区块。

双轨生态中的隐藏成本

企业经常低估三类成本：

合规切换成本：同一能力在不同区域要维护不同供应链与审计流程
模型切换成本：许可证和 API 契约不一致，导致迁移成本陡增
人才协同成本：跨区域团队难以共享同一套工具与数据回路

这意味着 “多模型备份”、“多云容灾” 不是可选项，而是中期经营韧性的基础建设。

如果双轨化加速，开源模型的重要性会进一步上升，因为它们在技术兼容与议价能力上提供了缓冲层。Nathan 强调开放后训练配方的原因之一，正是让生态具备抗垄断与抗封锁能力。

情景 C：安全事件驱动监管跳变

若出现高影响力事故（例如关键基础设施遭到大规模 AI 辅助攻击），监管节奏可能从渐进改为跳变。届时市场会出现短期 “能力收缩”，但中长期反而强化了可审计系统的价值。

在监管跳变前应预置的能力

任务级审计日志（输入、模型版本、工具调用、输出）
关键决策的可解释证据链（为什么给出这个动作建议）
风险分级的自动熔断机制（高风险任务触发人工审批）
模型与数据版本回溯能力（可定位问题来源）

具备这些能力的团队，在监管变化时不是被动停摆，而是可以更快通过审计并恢复业务。

本章小结

未来两年最可能出现的是 “能力快进步、系统慢落地” 的结构性张力。地缘分裂与监管跳变会放大执行能力的重要性。真正的竞争不只是模型强弱，而是谁能在不确定环境下保持连续交付。

工程蓝图：把推理模型接进生产系统

分层架构：Planner / Executor / Verifier

结合访谈里对可验证任务、长链路可靠性和成本约束的讨论，一个实用的工程蓝图是三层架构：

Planner：负责任务拆解、工具选择、预算控制
Executor：调用模型与工具执行子任务
Verifier：对每步产物做规则校验、测试校验或一致性校验

为什么三层架构比 “单模型全能” 更稳

单模型端到端虽然开发快，但难以控制失败边界。引入 Verifier 后，可以把错误拦截在子任务层，而不是让错误一路传播到最终结果。对 30+ 步任务，这种差异会指数放大。

在这个蓝图里，强推理模型应优先用于 “高不确定、高代价” 步骤；低成本模型处理 “高频、低风险” 步骤。这样既保持质量，也控制总体预算。

上下文与记忆：避免 “越做越乱”

长任务失败的常见原因不是模型不会做，而是上下文污染：早期错误信息被当成真相持续传播。访谈中对 KV Cache、长上下文成本的讨论说明，“无限上下文” 并不能自动解决记忆质量问题。

问题	工程对策
上下文膨胀	采用阶段性摘要与状态快照，而不是无上限追加历史
错误记忆固化	对关键事实设置信任等级，低信任信息必须二次验证
跨工具语义漂移	使用结构化中间表示（JSON schema / typed state）
重试污染	每次重试从干净状态回放，避免在错误轨迹上叠加修补

长任务中的上下文治理策略

上线策略：灰度、回滚与人机分工

推理模型上线不应采用 “全量替换”，而应采用 “场景灰度”。可按风险等级分层：

L1（低风险）：可自动执行，抽样人工复核
L2（中风险）：模型建议 + 人类确认
L3（高风险）：模型仅给分析，不直接执行

最危险的上线方式：把 L3 任务当 L1 处理

当组织在 KPI 压力下过早追求自动化率，最常见错误是把高风险流程直接自动执行。这类错误一旦触发，通常不是 “精度下降”，而是 “事故级” 后果。访谈对网络攻击、电力系统脆弱性的担忧，本质上就是在提醒这条边界。

此外，回滚必须是 “可演练” 的，而不是只写在文档里。建议每月进行一次故障演练：随机注入模型异常输出，验证系统是否能在限定时间内切回人工路径。

本章小结

推理模型的生产化不只是 Prompt 工程，而是系统工程。分层架构、上下文治理、风险分级上线与可演练回滚，决定了模型能力能否转化为稳定生产力。

花絮、阴谋论与被低估的玩家

这一节收录了访谈中零散但极有价值的洞察和故事——它们不属于任何单一主题，但每一个都揭示了 AI 产业的某个侧面。

阴谋论 vs 真相

围绕 DeepSeek 的阴谋论在社交媒体上疯传。Dylan 和 Nathan 逐一拆解：

“中国政府在补贴 DeepSeek”：不太可能。DeepSeek 由幻方量化（对冲基金）资助，不是政府关联企业。梁文锋后来确实与政府领导会面，但那是 DeepSeek 成功之后——政府是在蹭热度，不是在背后资助。

“他们在发布前做空了 NVIDIA 股票”：也不太可能。V3 在 12 月 26 日发布——谁会选择圣诞节后第一天发布来配合做空？“我觉得他们只是在赶工——谁在乎圣诞节，赶在中国新年前发出来就行。” (Nathan)

“只花了 600 万美元训练”：这是对论文的严重误读。$5.576M 是 V3 预训练一次运行的 GPU 小时成本。不包括前期实验（可能跑了数十次小规模消融）、后训练、R1 训练、推理服务。实际总投入可能是这个数字的 10-50 倍。

被低估的 Gemini Flash Thinking

Lex 的个人测试中，Google 的 Gemini Flash Thinking 可能比 R1 更便宜且不弱——但几乎没人谈论它。原因可能是：

Google 的营销远不如 DeepSeek 的开源策略吸引眼球
Flash Thinking 可能使用了不同的方法（在现有架构上叠加推理，而非专门的推理训练）
DeepSeek 的“中国黑马”叙事更有传播力

这是一个关于“技术 vs 叙事”的教训——最好的技术不一定赢得最多关注。

PyTorch PowerPlant.NoBlowUp

训练大型集群时，GPU 的功率波动可以摧毁电力设备。计算阶段高功率（所有 GPU 全力计算）$\to$ 通信阶段低功率（GPU 等待数据交换）。这种脉冲式负载对变压器和配电设备非常危险。

Meta 的工程师写了一个 PyTorch 算子来解决这个问题：在 GPU 空闲期让它们计算无意义的数字（假乘法），纯粹为了维持稳定功率。这段代码意外被开源——一个叫 PowerPlant.no_blowup = 1 的操作符。

“你很容易就能把东西炸了。” (Dylan) 这个故事完美说明了 AI 训练中“无聊但关键”的工程挑战——问题不是算法突破，而是如何不让你的电力变压器爆炸。

Anthropic 的安全困境

Anthropic 据报道拥有比 O3 更好的推理模型但因安全考虑不发布。R1 的 Chain-of-Thought 确实可以令人不安——在中英文之间切换、出现类似乱码的片段、然后突然给出正确答案。

DeepSeek 的激进发布降低了所有人的安全标准——类似于冷战时期苏联太空计划对美国 NASA 的压力。“DeepSeek ships. That's one of their big advantages.” (Nathan) 快速发布本身就是一种竞争武器。

Sam Altman 的预言

引用 Sam Altman 的一句被频繁提到的话：“超人说服力将在超人智能之前到来。” 这对 AI 安全的含义深远——在 AI 能“真正思考”之前，它可能已经能“真正说服”。Character AI 的聊天机器人已经在影响年轻用户的情绪——如果是故意的文化/政治操纵呢？

Zuckerberg 在财报电话会上的公开声明也耐人寻味：“对我们的国家优势来说，开源标准应该是美国的，这很重要。” 开源不仅是技术策略，也是地缘政治工具。

本章小结

AI 产业充满了引人入胜的细节：从“不要炸了变压器”的工程挑战，到“600 万美元”的误读，到被低估的 Gemini，到开源作为地缘政治武器。这些花絮揭示了一个比技术论文更丰富、更混乱、更人性的行业现实。

总结与延伸

阴谋论与真相

围绕 DeepSeek 的阴谋论纷飞：中国政府在补贴 DeepSeek？不太可能——它由对冲基金资助，不是政府关联企业。他们在发布前做空了 NVIDIA 股票？也不太可能——V3 在 12 月 26 日发布（圣诞节后第一天）。“我觉得他们只是在赶在中国新年前发布——谁在乎圣诞节。” (Nathan)

NVIDIA 股价暴跌：社交传染 + 错误叙事（“模型花了几十亿”——实际上没有任何公开模型花费超过 $1B 训练）。Jevons 悖论很快被验证：DeepSeek 发布后 AWS H100 价格不降反升，H200 几乎脱销。

核心要点

主题	核心观点
DeepSeek 技术	MoE + MLA + CUDA 底层优化 = 受限硬件上的极致工程
出口管制	限制训练效果有限，限制推理部署更关键；可能加速中国自主创新
推理模型	R1-Zero 是 Alpha Zero 时刻；可验证域是扩展 RL 的关键
TSMC	全球科技最大单点故障；Intel 衰落加剧集中度
基础设施	Stargate 级 $100B 投资；能源和 GPU 走私是新约束
开源	R1 的 MIT 许可证是“重大重置”；AI2 Tulu 证明开放后训练可达前沿
产业格局	只有 NVIDIA 赚钱；Agent 六个九问题未解决；SWE 变革最快

对未来的展望

Nathan：人类在 1000 年后仍会存在——不担心 AI 接管（物理原因限制了机器人的速度）。但担心技术法西斯主义——脑机接口创造出人-AI 融合精英阶层。核心动机：“我不信任那些说'相信我兄弟，我们会让 AI 变好'的人。” AI 是我们一生中最强大的技术——需要更多人参与塑造。

Dylan：总体乐观。AI 将通过逐利机制增加丰裕、减少苦难。但担心过渡期的人类痛苦峰值。对基础设施的未来最兴奋：协同封装光学、多数据中心训练、新型交换网络。“人类进步的速度达到了前所未有的水平。” 计算栈的每一层都在创新：铜缆、空调、变压器、光刻。

“有一种根本性的人类善良，我们要做的是放大它。” (Nathan)

“刷手机维持了世界的现状——那已经是一个正面的结果。” (Dylan)

拓展阅读

DeepSeek V3 技术报告（2024 年 12 月）
DeepSeek R1 技术报告（2025 年 1 月）
SemiAnalysis: semianalysis.com — Dylan Patel 的半导体分析
Nathan Lambert: Interconnects 博客 — AI 研究与开源
AI2 Tulu 项目：完全开放的后训练配方
Rich Sutton, The Bitter Lesson, 2019
Andrej Karpathy 关于 R1-Zero 的推文讨论