访谈笔记:DeepSeek、中国 AI 与半导体地缘政治
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | Lex Fridman Podcast |
| 日期 | 2026-04-02 |

DeepSeek V3 与 R1:技术解析
模型概览
DeepSeek V3 是来自中国深度求索公司的 Mixture-of-Experts (MoE) Transformer 语言模型,开放权重,指令微调版本。R1 是在 V3 基础上通过强化学习训练的推理模型,于 2025 年 1 月 20 日发布。两者共享同一个预训练基座模型,但后训练路径不同。
“DeepSeek 为传播 AI 的理解做了出色的工作——他们的论文极其详细。” (Nathan) 这种详细程度在前沿实验室中极为罕见——论文包含完整的训练 loss 曲线、超参数选择理由和架构消融实验,使得其他团队可以直接借鉴。
背景:DeepSeek 的母公司是幻方量化(Highflyer),一家中国量化对冲基金,CEO 梁文锋同时领导两家公司。Dylan 将他比作“Elon/Jensen 式的人物——参与所有事情,完全的 AGI 气质”。幻方在 2021 年出口管制之前就囤积了 10000 张 A100,这个远见为后来的 DeepSeek 提供了关键硬件基础。
V3 vs R1 的用户体验差异
V3:标准聊天模型,生成快速,高质量 Markdown 输出。
R1:显示扩展的 Chain-of-Thought 推理过程——模型分解问题、自我反思、回溯纠正,然后给出答案。这个可见的推理过程吸引了公众的想象力。
示例:问 R1 “关于人类的一个真正新颖的洞察”,模型推理了 157 秒,最终回答:“人类本能地将自私欲望转化为合作系统,方法是集体假装抽象规则(金钱、法律、权利)是真实的。”
Lex 对 R1 Chain-of-Thought 的诗意评价:“它的非线性,类似于 James Joyce 的《尤利西斯》——在中英文之间跳跃,出现看似乱码的片段,然后突然给出清晰的答案。”
对比测试中,O1 Pro 在哲学问题上持续最佳,R1 第二,Gemini Flash 第三。但 R1 的可见推理过程创造了独特的审美体验。Google 的 Gemini Flash Thinking 可能比 R1 更便宜且不弱,但几乎没人谈论它。

来源:视频画面时间区间:00:12:00–00:12:10。
开放权重 vs 开源
开放的光谱
- 开放权重:模型权重可下载,可本地运行——你的数据留在本地
- 完全开源:权重 + 训练数据 + 训练代码(AI2 的标准)
- DeepSeek R1:MIT 许可证——无下游商业限制、可用于合成数据
- Llama:许可证更严格(使用场景限制、品牌要求)
“偷你数据的不是模型,而是托管模型的人。” (Nathan)
关键:DeepSeek 的论文极度详细,提供了可操作的训练细节(包括 loss 曲线),但训练数据和代码并未公开。这是“开放权重”而非“完全开源”——但即便如此,在前沿模型中已是最高开放度。
DeepSeek R1 的 MIT 许可证是一次“重大重置”——第一个真正宽松许可的前沿模型。此前的选择要么是非前沿模型,要么是限制性许可(如 Llama 的品牌要求和使用限制)。“我们需要真正开放的模型……你可以用 R1 做一个便宜的副本然后假装是你自己的。Llama 做不到这点。” (Nathan)
低训练成本的秘密
DeepSeek 声称用 2000 张 H800 GPU 训练了 V3(仅预训练阶段)。两个关键架构创新:
- MoE (Mixture of Experts):总参数 671B,但每个 token 只激活约 37B(256 个专家中的 8 个)——计算量大幅降低。这不是 DeepSeek 发明的技术(Google 的 Switch Transformer 更早),但 DeepSeek 将其推到了前沿模型的极致。
- MLA (Multi-head Latent Attention):将注意力机制中的 Key-Value 投影到低维潜空间,节省 80-90% 内存。这使得在有限的 H800 内存中处理更长的上下文成为可能。
但真正的“杀手锏”在更底层——DeepSeek 在 CUDA 层之下进行修改,手动调度 SM(Streaming Multiprocessor)核心进行通信,绕过了 NVIDIA 的标准通信库 NCCL。
“必要性是创新之母——他们必须这么做,因为他们的互连带宽被砍了。” (Dylan) H800 与 H100 的唯一区别是 NVLink 互连带宽被降低,而跨节点通信正是大规模训练的瓶颈。DeepSeek 被迫在这个受限点上创新,反而开发出了比标准方案更高效的通信策略。
“2000 张 GPU” 的真相
论文声称的 2000 张 H800 仅指 V3 预训练的一次运行。SemiAnalysis 估计 DeepSeek 实际拥有约 50000 张 GPU——因为还需要:
- 前期的架构搜索和小规模消融实验(ablation studies)
- 后训练(SFT + RLHF)
- R1 的专门 RL 训练
- 推理服务部署
对比:Meta 拥有 400000+ GPU;Llama 3 在 16000 张上训练。DeepSeek 的真正优势不是“便宜”,而是在受限硬件上的极致优化能力。
背景:DeepSeek 的母公司幻方量化(Highflyer)是中国量化对冲基金,在 2021 年出口管制之前就囤积了 10000 张 A100。CEO 梁文锋被 Dylan 比作“Elon/Jensen 式的人物——参与所有事情,完全的 AGI 气质”。
Bitter Lesson 与训练哲学
DeepSeek 的成功体现了 Rich Sutton 的 Bitter Lesson:在学习和搜索上可扩展的方法长期获胜;最小化人类先验。创新是随时间复合的:数据、架构、后训练的小改进不断积累。
训练的关键决策时刻是“YOLO run”——在小规模消融后,将所有资源投入一次大型训练运行。OpenAI 2022 年的 GPT-4 YOLO 是最大胆的:全新的 MoE 架构,所有算力投入数月。
“模型只是想学习——你必须给它们简单的损失地形,把障碍清除掉。” (Nathan)
训练中的 Loss Spike
训练过程中的 loss 突刺是所有实验室都面临的问题:有些来自坏数据(一个例子是“微波炉帮派”subreddit),有些来自数值不稳定。快速突刺和慢速突刺需要不同的恢复策略。
工程师们在晚餐时持续监控 loss 曲线,每 10 分钟查一次手机。每家公司都有失败的训练跑——这是推进前沿的代价。FP8 训练引入了更多不稳定性。
本章小结
DeepSeek 的核心突破是在出口管制限制下的极致工程优化:MoE 减少激活参数、MLA 减少内存、CUDA 底层定制。V3 论文的详细程度为全行业提供了可操作的技术路线图。
出口管制与地缘政治
芯片限制的演进
美国对中国 AI 芯片出口管制经历了多个阶段。最初采用双因素标准(算力 + 互连带宽),后简化为纯算力限制,最近又扩展为更广泛的“AI 扩散规则”。
| 芯片 | 特点 |
|---|---|
| H100 | 全规格——不允许出口中国 |
| H800 | 与 H100 相同算力,但互连带宽被砍——DeepSeek 围绕此优化 |
| H20 | 算力降低,但内存带宽/容量比 H100 更好——对推理反而更优 |
NVIDIA 在 2024 年向中国出货了 100 万张 H20,但在 2025 年取消了 200 万张订单(预期即将到来的全面禁令)。
一个关键的讽刺:H20 因为内存带宽/容量优势,对推理模型(R1、O1 类需要大量 KV Cache 的模型)实际上比 H100 在某些场景下更优。政府历来只控制算力(flops),但内存和互连同样重要。
出口管制从最初的双因素标准(算力 + 互连带宽)演化到纯算力限制,最近又扩展为更广泛的“AI 扩散规则”——限制中国关联实体租用 \(<\)2000 GPU 或购买 \(<\)1500 GPU。但每一轮限制都催生了新的规避策略和技术创新。
从半导体供应链的角度看,出口管制创造了一个奇特的局面:NVIDIA 被迫为中国市场设计“阉割版”芯片(H800、H20),而这些阉割版反而成为了 DeepSeek 优化的起点。限制互连带宽 \(\to\) DeepSeek 开发 CUDA 底层通信优化 \(\to\) 这些优化也可以用于 H100,使得“受限硬件上的极致优化”可能比“无限硬件上的标准做法”更高效。这是出口管制的意外后果。
出口管制的论证与反论证
Dario Amodei 的论点:如果 AI 变得超级强大,谁先建成谁就拥有军事优势;民主国家应该领先。
训练 vs 推理的关键区分
“训练一个模型本身几乎什么都不做——将模型部署以创造经济增长、军事能力……那需要大量算力。” (Dylan)
出口管制主要限制的是中国大规模部署 AI 的能力,而非训练单个模型。DeepSeek 恰恰证明了这一点——即使训练硬件受限,他们仍能训练出前沿模型。但大规模推理服务(服务数亿用户)需要的 GPU 数量是训练的数十倍。
Nathan 的 AGI 时间线:2030 年之后。Dylan 则认为能力可能在 2027-28 年到来,但部署成本将是禁止性的。
AGI 时间线与 AI 冷战
AI CEO 们说“2 年”——加几年约等于 2030。但物理约束限制了“一键 AGI 部署”的幻想——你不能在模型训练完的第二天就改变世界,因为部署、集成、适配都需要时间。
DeepSeek 事件可能标志着真正 AI 冷战的起点。在梁文锋与中国第二号领导人会面后,中国宣布了万亿人民币(约 $160B)的 AI 补贴计划——这是对美国 CHIPS Act $50B 的三倍多响应。
Dylan 提供了一个令人深思的框架来评估出口管制的长期效果:
出口管制的时间悖论
“在 2-3% 经济增速的世界里,出口管制保证中国长期赢。只有 AI 在短期内带来巨大变革时,出口管制才有意义。” (Dylan)
逻辑链条:如果 AGI 5 年内不来,出口管制只是延缓中国几年,中国最终追上且更自主。如果 AGI 3 年内来,出口管制限制了中国的部署能力,才真正有意义。但出口管制催生了 DeepSeek 式的极致优化——中国可能用更少硬件达到同样效果。
更深层的风险:将中国推离前沿技术,增加了对台湾采取军事行动的动机。出口管制指向分离的未来经济体——一旦形成极难逆转。中国在数据中心和电力方面的工业产能远超美国。历史规律:和平与全球单极霸权相关;多极格局等于不稳定。
军事与自主系统
乌克兰的无人机实战经验表明:人类操作仍远优于完全自主系统。技术进步并不意味着自主武器立刻可行——战场环境的混乱程度远超实验室。
网络战争可能比物理机器人群先到来。AGI 作为武器的最可能路径不是科幻电影中的机器人军队,而是社会工程(AI 驱动的精准影响力操作)、虚假信息(以假乱真的大规模内容生成)、关键基础设施攻击(电网、金融系统、通信网络)。
“全美停电两天……那将导致谋杀和混乱。” (Lex) 这比任何自主机器人的威胁都更近、更现实。
本章小结
出口管制效果复杂:限制了训练硬件但催生了更高效的架构;H20 对推理反而更优;冷战动态正在形成。核心矛盾:限制中国部署能力 vs 推动中国自主创新 vs 增加台海军事风险。
TSMC 与半导体产业
TSMC 的垄断地位
TSMC 生产世界上大部分先进芯片。代工模式(foundry model)的成功依赖于规模经济——当你为所有客户制造芯片时,每个制程节点的研发成本被摊薄到整个行业。
由张忠谋创立——他在德州仪器(TI)被跳过 CEO 后转战台湾,创造了改变世界的商业模式。这是一个深刻的历史偶然:如果张忠谋当上了 TI CEO,台湾可能不会成为全球半导体中心。
台湾的独特优势
台湾半导体产业的文化基因:
- 人才密度:顶尖毕业生以 $70-80K 年薪加入 TSMC——在美国同等水平的工程师薪资是 3-5 倍
- 工作伦理:极端的投入度,远超硅谷标准
- 应急响应:地震后的快速恢复能力,整个产业链的抗风险弹性
- 制造纪律:半导体制造需要持续数月的精确控制,台湾文化适合这种工作
全球只有三个地方在做尖端研发:新竹(TSMC)、Hillsboro, Oregon(Intel)、Pyeongtaek(Samsung)。这个名单可能还会缩短——Intel 和 Samsung 都在挣扎。

来源:视频画面时间区间:01:31:05–01:31:16。
台湾:全球科技的最大单点故障
“如果我有几枚导弹,我确切知道哪里能造成最大的经济损害——就是 TSMC、Intel、Samsung 的研发中心。” (Dylan)
美国 CHIPS Act 只有 $50B——对比中国每年约 $200B 的半导体补贴。而 Intel 正在衰落:失去制程领先地位、没有 AI 芯片胜利、CEO 被解雇、PC 和服务器市场份额流失。Samsung 的制造良率也在下降。
最极端的情景:世界可能最终只剩 TSMC 一家做尖端研发。如果台海发生冲突,全球科技产业将遭受无法估量的损失。
本章小结
半导体供应链高度集中于 TSMC,台湾的地缘政治风险是全球科技的最大单点故障。Intel 的衰落和 Samsung 的困境意味着集中度在增加而非减少。
推理模型与 RL 革命
R1-Zero:Alpha Zero 时刻
这可能是整个访谈中最重要的技术发现。DeepSeek R1-Zero 是纯 RL 训练的结果——没有人类偏好数据,没有 SFT,没有 RLHF。只给模型问题和可验证的答案(数学题有标准答案,代码有单元测试),让 RL 自由探索。
结果令人震惊:“等一下让我检查一下”、自我纠正、分步推理等行为自然涌现——不是被人类教出来的,而是 RL 自己发现这些策略能提高奖励。
语言模型的 Alpha Zero 时刻
这与 Alpha Zero 在围棋中的发现完全平行:
- Alpha Go(2016):用人类棋谱训练 + 自我博弈 \(\to\) 超人水平
- Alpha Zero(2017):纯自我博弈,零人类数据 \(\to\) 远超 Alpha Go
- R1(2025):用人类偏好数据训练 \(\to\) 不错的推理
- R1-Zero(2025):纯 RL,零人类偏好数据 \(\to\) 更强的推理
模式完全一致:移除人类先验使系统更强大。
“几乎每一个深度学习中令人震惊的结果……都是试错学习。两{[}trial-and-error{]}的力量远大于一{[}imitation{]}。” (引用 Andrej Karpathy)
RLHF 不仅是安全对齐工具——它还能提升数学/代码性能。但 R1-Zero 证明:如果你有可验证的域,连 RLHF 都不需要。

来源:视频画面时间区间:02:40:00–02:40:12。
可验证域与 AGI 路径
当前推理训练只在可验证任务上有效——数学证明有标准答案,代码有单元测试。但这个“可验证”的范围正在扩大:
下一个前沿:计算机使用和机器人作为“无限可验证”的沙箱。模型可以学习浏览网页、创建企业、赚钱——这些都是可验证的(银行账户余额不会说谎)。
“顿悟时刻将是模型学会如何在 Twitter 上获得几十万真实粉丝……或者通过当网红赚到一千万美元。” (Dylan) 这不是玩笑——如果模型能在开放互联网上自主完成经济目标,那就是一种 AGI。
搜索叠加 Chain-of-Thought
O3/O1 Pro 不只是一条 Chain-of-Thought——它们并行启动多条推理链,选择最佳结果(可能使用 Monte Carlo Tree Search)。
Arc AGI 测试的惊人数据:
- 1 个样本:\(\sim\)30% 准确率
- 1000 个并行样本 \(\to\) 80-90% 准确率
- 代价:每个问题 $5-20——比标准聊天贵 1000 倍
这展示了推理时计算(test-time compute)的威力:不需要更好的模型,只需要更多的推理时间和更多的并行尝试。这是一条完全不同于“训练更大模型”的 Scaling 路径。
推理推断经济学
推理模型的经济学与传统 LLM 根本不同——计算从训练时转移到了推理时。
KV Cache 与推理成本
KV Cache 是 Transformer 推理的核心瓶颈——它存储所有前序 token 的压缩表示,随上下文长度二次增长。
关键数字:
- 输出 token 比输入 token 贵 4 倍(串行处理 vs 并行处理)
- 推理模型生成 10,000+ 输出 token——巨大的内存压力
- 更少的并发用户(每用户占用更多内存)
- DeepSeek MLA 节省 80-90% 注意力内存,但仍是二次的
R1 比 O1 便宜 27 倍($2 vs $60/百万输出 token)。差异来源:
- OpenAI 的 75%+ 毛利率
- DeepSeek 的架构创新(MLA + 底层库优化)
- 中国更低的运营成本
但 DeepSeek 自己实际上无法服务这个模型——停止了新注册,速度 \(<\)5 tokens/sec,没有产能。第三方提供商(Together AI、Fireworks)以 DeepSeek 5-7 倍的价格提供 R1。
搜索叠加 Chain-of-Thought
O3/O1 Pro 不只是一条 Chain-of-Thought——它们并行启动多条推理链,选择最佳结果(可能是 Monte Carlo Tree Search)。Arc AGI 测试:1000 个并行样本 \(\to\) 80-90% 准确率,vs 单样本的 30%。代价:每个问题 $5-20。
成本下降曲线与 Jevons 悖论
1200 倍的成本下降
GPT-3 推理成本:$60-70/百万 token \(\to\) 3 年内降至几美分(通过 Llama 3B 等小模型),1200 倍的降幅。
DeepSeek 在 GPT-4 级别模型的成本趋势线上,但它是第一个达到这个价格点的。
Jevons 悖论被确认:DeepSeek 发布后 AWS H100 定价不降反升,H200 几乎脱销。“Scaling Laws 已死持续了一个月……然后 O1、O3、R1 出来了,现在变成'模型进步太快了'。” (Dylan)
安全、审查与对齐
Anthropic 的安全立场
Anthropic 据报道拥有比 O3 更好的推理模型但因安全考虑不发布。R1 的 Chain-of-Thought 可能令人不安:在中英文之间切换、出现乱码、然后给出正确答案。DeepSeek 降低了所有人的安全标准——类似于苏联太空计划对 NASA 的影响。
审查的三个阶段
- 预训练数据过滤:最基础但最粗暴
- 后训练(RLHF):Llama 2 的过度对齐案例——“如何杀死一个 Python 进程?” 因“杀死”一词被拒绝
- System Prompt:隐藏指令,Gemini 的“黑人纳粹”事件来自 Prompt 重写而非模型权重
每个模型都有互联网偏见(略偏左);Grok 试图纠正但基座模型仍然吸收了 r/politics。
文化后门
“对我们的国家优势来说,开源标准应该是美国的很重要。” (Zuckerberg)
开源软件有过后门(Linux XZ 漏洞)——AI 模型可能嵌入文化/政治偏见。英式英语正在消亡因为美国 LLM 主导;拼写优化用 Z 不用 S。Character AI 的聊天机器人已经在影响情绪——如果是故意操纵呢?
“超人说服力将在超人智能之前到来。” (引用 Sam Altman)
本章小结
R1-Zero 是语言模型的 Alpha Zero 时刻——纯 RL 训练涌现推理能力。推理经济学的核心是 KV Cache 内存瓶颈。成本 3 年内降 1200 倍但需求更快增长(Jevons 悖论)。安全和审查是多层次问题,每个阶段都有不同的风险特征。
基础设施与算力竞赛
超大规模集群
AI 基础设施正在经历人类历史上前所未有的扩张速度。对比历史:GPT-4 用了 20,000 张 A100(\(\sim\)15-20 MW),相当于一个标准数据中心。仅仅两年后,单个集群规模已经扩大了 10 倍。
| 组织 | GPU 数量 | 备注 |
|---|---|---|
| xAI (Memphis) | 200K H100 + 100K H20 | 最大单集群;Elon 目标 1M |
| Meta | \(≈\)128,000 | 400K+ 总量 |
| OpenAI | \(≈\)100,000 | |
| Google (TPU) | 最大总量 | 跨 Iowa/Nebraska/Ohio 光纤 |
| Anthropic + Amazon | 400K Trainium 2 | 在建 |
数据中心用电从美国电力的 2-3% 将增长到 2028-2030 年的 10%+。下一代 Blackwell GPU 功耗达 1200W(vs 当前 Hopper 700W),明年目标是 500,000-700,000 GPU 集群。Elon 的目标是 100 万张 GPU——“我从不怀疑 Elon。” (Dylan)
训练的功率尖峰问题
训练创造尖峰式电力需求:GPU 计算时高功率 \(\to\) 交换权重时 GPU 空闲、低功率。这种脉冲式负载对电网非常不友好。
Meta 意外开源了一个 PyTorch 算子:PowerPlant.no_blowup = 1——让 GPU 在空闲期计算无意义的数字来平滑功率曲线。“你很容易就能把设备烧了。” (Dylan)
Elon 的解决方案更优雅:Tesla Mega Pack 电池组吸收功率瞬变。
液冷革命
空气冷却曾是标准方案,但 Blackwell 的 1200W 热密度使其不可行。Google TPU 已采用水冷多年。Elon 在 Memphis 率先大规模 GPU 液冷——90 个集装箱大小的水冷机组环绕设施外围。下一代 NVIDIA 强制要求水冷。
液冷的连带好处:芯片能更紧密排列 \(\to\) 更短的物理距离 \(\to\) 更高速的互连。这对训练效率至关重要。
Stargate 项目详解
OpenAI + Oracle 在德克萨斯州 Abilene 的项目:满载功率 2.2 GW——超过大多数城市的用电量。
Stargate 的规模与资金
- Phase 1 总拥有成本约 \(100B(\)50B 实际投入 + $50B 运营成本)
- 第一期:\(\sim\)$5-6B 服务器 + $1B 数据中心(Oracle 已在建设)
- 资金来源:SoftBank(可能 \(25B)、Oracle、MGX(阿联酋,\)1.5T AI 基金但“墨迹未干”)
- OpenAI 自身承诺 $19B 但只有 $6B 现金 + $4B 债务
Elon 说得对:“钱不存在。” 但 Dylan 相信钱最终会来。Trump 的角色是去监管化(联邦土地数据中心、简化审批),而非提供资金。“Trump 是一个 hype man……减少监管让他们能更快建设。” (Dylan)

来源:视频画面时间区间:03:43:00–03:43:12。
电力、冷却与物理约束
训练创造尖峰式电力需求:GPU 计算时高功率,交换权重时 GPU 空闲、低功率。Meta 意外开源了一个 PyTorch 算子:PowerPlant.no_blowup = 1——让 GPU 在空闲期计算假数字以平滑功率。
“你很容易就能把设备烧了。” (Dylan)
Elon 的解决方案:Tesla Mega Pack 电池组吸收功率瞬变。液冷革命:Google TPU 已采用水冷,Elon 在 Memphis 率先大规模 GPU 液冷(90 个集装箱大小的水冷机组)。下一代 NVIDIA Blackwell 强制要求水冷。液冷使芯片能更紧密排列,实现更高速互连。
GPU 走私与扩散规则
GPU 走私已成现实
字节跳动是最大的“走私者”——从 Oracle、Google、各小型云商全球租用 500,000+ GPU。物理走私也存在:有人在旧金山机场头等舱带着 SuperMicro GPU 箱子飞上海。
2024 年估计有 200-300K GPU 通过新加坡、马来西亚的小公司流入中国。新的 AI 扩散规则限制中国关联实体租用 \(<\)2000 GPU 或购买 \(<\)1500 GPU。
“GPU 将超越毒品和武器成为每公斤最高价值的走私品。” (Dylan)
Google TPU 与 NVIDIA 垄断
Google TPU 内部很优秀(为搜索、YouTube、Gemini 优化),但软件栈未公开发布。这是一个组织问题而非技术问题:Google Cloud、TPU 团队、DeepMind 和搜索团队彼此独立运作,没有统一的对外策略。NVIDIA 的整个文化是服务外部客户;Google 服务内部客户。
一个具体的例子揭示了这种内部优化的弊端:Gemma 模型的词表大小为 TPU 优化(TPU 有大型矩阵乘法单元),但在 GPU 上运行效率很低。当 Google 的研究者离开去创业时,他们才发现外部基础设施有多难——“研究者离开 Google,创办公司,发现基础设施很难,然后回去了。” (Dylan)
AMD 的情况:硬件尚可但软件(ROCm)糟糕到令人发指。“我们在给 AMD 提交最多的 bug——为什么是我们 SemiAnalysis 在提交最多的 bug?” (Nathan) 一个半导体分析公司在给芯片厂商报告软件 bug,这说明了 AMD 的软件生态有多薄弱。
Intel 处境更艰难:失去制程领先地位、没有 AI 芯片胜利、CEO 被解雇、PC 和服务器市场份额持续流失。Samsung 的制造良率也在下降。
最极端的情景:世界可能最终只剩 TSMC 一家在做尖端芯片研发。这意味着一个岛屿——位于中国大陆几百公里外的岛屿——承载着全球科技的命运。
本章小结
AI 基础设施正在经历前所未有的扩张——Stargate 级项目代表 $100B 规模投资。电力、冷却和 GPU 走私是新的物理约束。NVIDIA 垄断短期内无法撼动——AMD 软件太差,Intel 在衰落,Google TPU 不对外。
AI 竞赛、开源与产业格局
谁在赚钱?
真正赚钱的只有 NVIDIA。超大规模公司账面盈利但资本支出巨大。OpenAI 领先于最佳模型和 AI 收入,但花费超过收入。Meta 通过推荐系统从 AI 获益(不是直接从 Llama)。
能力商品化的速度
“任何商业模式建立在 GPT-3 级别能力上的公司都死了。任何建立在 GPT-4 级别的也死了。” (Dylan)
OpenAI 和 Anthropic 必须持续赢在最佳模型上,否则将被 Llama/开源模型替代。成本下降曲线惊人:GPT-3 推理从 $60-70/百万 token 到现在的几美分——3 年 1200 倍的降幅。DeepSeek 在 GPT-4 级别模型的价格趋势线上,只是第一个到达的。
这意味着“模型即服务”的商业模式面临根本性压力。唯一的护城河是持续领先于最前沿——一旦落后半年,你的能力就被开源模型追平且免费化。
Agent:炒作 vs 现实
“Agent” 是 2025 年最被滥用的 AI 术语——真正含义应该是开放式、独立的任务解决。
六个九问题
每一步 \(<\)100% 准确率,多步复合后良率极低。如果每步 99% 准确,10 步后只有 90%;100 步后只有 37%。要达到 99.99% 的端到端成功率,每步需要多少个九?
“你有几个九?乘以步数……99.9999% 都不够。” (Dylan)
自动驾驶的类比:在定义良好的道路上仍然困难重重(Waymo 花了十年);开放的网页/操作系统环境更混乱数倍。每个网站布局不同,API 随时变化,错误模式无限多。

来源:视频画面时间区间:04:17:00–04:17:12。
最有希望的方向是软件工程 Agent——原因:
- 可验证性:单元测试、编译、CI/CD 提供自动反馈
- 可检查整个代码库(上下文窗口足够)
- SWE-bench 一年内从 4% 到 60%
结构化合作也有效(OpenAI Operator + DoorDash/OpenTable)——在定义良好的域中 Agent 成功率更高。
软件工程成本将暴跌——这改变了整个市场结构。中国不用 SaaS 因为工程师便宜,AI 将把这个模式带到全世界。领域专家(航空、半导体、化工)使用的是 20 年前的工具——“ASML 光刻工具跑在 Windows XP 上。” (Dylan) 这些领域有巨大的低垂果实。
DOGE 与政府现代化
政府软件极度过时——“恳求现代化”。官僚体系保护权力中心;软件打破这些壁垒。许多行业有大量 AI 自动化的低垂果实。
蒸馏争议
蒸馏的伦理灰色地带
蒸馏(用更强模型的输出训练弱模型)是行业标准做法。OpenAI 声称 DeepSeek 使用了他们的 API 输出——但数据通过复制粘贴已经在互联网上了。很多美国创业公司公开在 OpenAI 输出上训练。
“为什么我用你的模型输出训练是不道德的,而你可以用互联网的文字训练?” (Nathan)
工业间谍也存在:想法通过硅谷跳槽自由流动(加州非竞争条款违法)。Gemini 工程师帮助建造 100 万 context 后去了 Meta——下一代 Llama 预期将有 100 万 context。
日本漏洞:版权法允许在任何数据上训练 + 9GW 搁置核电 + 无限 GPU 进口 = 潜在的 AI 训练天堂。
DeepSeek R1 对开源的影响
R1 的 MIT 许可证是一次“重大重置”——第一个真正宽松许可的前沿模型。此前的选择要么是非前沿模型,要么是限制性许可(如 Llama)。
“我们需要真正开放的模型……DeepSeek R1 的数据我们不知道,但你可以用它做一个便宜的副本然后假装是你自己的。Llama 做不到这点。” (Nathan)
Nathan 的 AI2 项目 Tulu 展示了完全开放后训练的力量:在 Llama 基座上应用 RLVR(可验证奖励的 RL),在数学上击败了 Llama instruct 并匹配 DeepSeek V3。在 Chatbot Arena 排名前 60 的模型中,Tulu 之前没有一个公开了后训练的代码或数据。
本章小结
AI 产业格局快速整合:只有 NVIDIA 盈利,能力商品化速度极快。Agent 面临六个九的可靠性挑战。开源正在改变游戏规则——DeepSeek R1 的 MIT 许可和 AI2 的 Tulu 证明了完全开放的后训练可以达到前沿水平。蒸馏争议折射出数据所有权的未解决问题。
成本下降、Jevons 悖论与产业走私
1200 倍的成本下降与 Jevons 悖论
GPT-3 时代的推理成本是 $60-70/百万 token。三年后(通过 Llama 3B 等小模型),同等能力降至几美分——1200 倍的降幅。DeepSeek 在 GPT-4 级别模型的成本趋势线上,但它是第一个到达这个价格点的。
NVIDIA 股价在 DeepSeek 发布后暴跌,但这是基于错误叙事的社交传染。没有任何公开模型的训练花费超过 $1B。“DeepSeek 只花了 600 万美元”的说法是对论文的误读——那只是一次预训练运行的 GPU 小时成本,不包括研发、实验、后训练、推理部署。
Jevons 悖论在 AI 中的完美验证
经济学中的 Jevons 悖论(1865 年提出):当一种资源的使用效率提高时,总消耗量反而增加——因为降低成本刺激了更多需求。
蒸汽机效率提高 \(\to\) 煤炭消耗不降反升。AI 推理成本降低 \(\to\) GPU 需求不降反升。
DeepSeek 发布后的直接证据:
- AWS H100 租用价格不降反升
- H200 几乎脱销
- 所有云厂商报告 GPU 需求激增
- 新的应用场景(推理密集型 Agent、大规模 RAG)变得经济可行
“'Scaling Laws 已死'持续了一个月……然后 O1、O3、R1 出来了,现在变成'模型进步太快了'。” (Dylan)
更便宜的推理 \(\to\) 更多的应用场景 \(\to\) 更多的推理需求 \(\to\) 需要更多 GPU。这不是零和博弈——总市场在扩大。这就是为什么 NVIDIA 的长期前景并不因为 DeepSeek 而黯淡。
GPU 走私的规模与手段
GPU 走私已经从灰色地带发展为产业级操作,涉及多种渠道:
云租用渠道:字节跳动是最大的“走私者”——从 Oracle、Google、各小型云商全球租用 500,000+ GPU。通过分散在多个国家的实体来规避单一审查。这种“分布式走私”极难追踪,因为每个单独的租用合同都低于监管阈值。
物理走私:有人在旧金山机场头等舱带着 SuperMicro GPU 服务器箱子飞上海——这不是虚构,是真实发生的事件。2024 年估计有 200-300K GPU 通过新加坡、马来西亚的小公司流入中国。
新扩散规则的局限:限制中国关联实体租用 \(<\)2000 GPU 或购买 \(<\)1500 GPU。但执法挑战巨大——如何追踪全球云计算资源的最终用户?如何定义“中国关联实体”?一家在新加坡注册、由中国公民运营的公司算不算?
“GPU 将超越毒品和武器成为每公斤最高价值的走私品。” (Dylan) 一张 H100 售价约 $30,000,重量不到 5kg——每公斤价值 $6,000+,远超大多数违禁品。而且不像毒品,GPU 是合法商品在某些市场,只是在特定出口方向上被限制。这创造了一个独特的套利空间。
蒸馏、间谍与知识流动
蒸馏争议的本质
蒸馏——用更强模型的输出来训练弱模型——是行业标准做法。OpenAI 声称 DeepSeek 使用了他们的 API 输出,金融时报大标题报道。但 Nathan 指出这更像是“叙事控制”而非真正的技术指控:
“为什么我用你的模型输出训练是不道德的,而你可以用互联网的文字训练?” (Nathan) 用户通过 ChatGPT 生成的内容被复制粘贴到互联网上,成为了公开数据。很多美国创业公司公开在 OpenAI 输出上训练——为什么他们可以而 DeepSeek 不行?
更深层的问题是:模型输出的知识产权归谁?如果我用 GPT-4 生成了一段代码,这段代码的版权属于 OpenAI 还是属于我?这个问题在法律上尚无定论。
人才流动与工业间谍
硅谷的跳槽文化(加州非竞争条款违法)使得想法——不是代码——自由流动。一个具体案例:帮助 Google 建造 Gemini 100 万 context 的工程师跳槽到 Meta——下一代 Llama 预期将有 100 万 context。这是合法的知识转移还是事实上的技术盗窃?边界极其模糊。
代码/数据窃取是犯罪行为且相对容易追踪。但想法的转移是不可避免的——你不能“忘记”你在前公司学到的架构直觉。
日本:意外的 AI 训练天堂
日本可能成为全球 AI 训练的一个独特节点:
- 版权法:明确允许在任何数据上训练模型(罕见的法律豁免)
- 能源:9GW 搁置核电容量可重启用于数据中心——这是巨大的廉价电力来源
- 硬件:无 GPU 进口限制(不受美国出口管制约束,因为日本是盟国)
- 多家日本公司和外资已开始在日本建设大型 AI 训练设施
版权豁免 + 廉价核电 + 无限 GPU = 理想的训练环境。这是一个很少人注意到的地缘套利机会。
针对 AI 研究者的情报活动也在发生。Dylan 半开玩笑地指出:“作为一个二十多岁的单身男人……我们非常容易被腐蚀。” 钓鱼行动(honey pot)针对拥有前沿知识的年轻研究者是真实存在的安全威胁。各国情报机构都在争夺 AI 人才——不是为了招募间谍,而是为了获取训练秘诀和架构洞察。
Nathan 的 AI2/Tulu 开源使命
Nathan 在 AI2(Allen Institute for AI)的工作代表了开源 AI 的最高标准。他的项目 Tulu 是第一个在 Chatbot Arena 排名前 60 的模型中公开完整后训练配方(代码 + 数据)的。
关键成果:Tulu 在 Llama 基座模型上应用 RLVR(可验证奖励的 RL),在数学推理上击败了 Llama 官方 instruct 版本,并匹配了 DeepSeek V3 的表现。这证明了后训练方法本身(而非仅仅是基座模型规模)可以带来巨大的性能差异。
OLMo 是 AI2 的另一个项目——完全开放的预训练工作(与 Tulu 的后训练互补)。更大模型规模下 RL 训练更容易激发强大能力,然后可以蒸馏到小模型。
Nathan 的核心动机:“我不信任那些说'相信我兄弟,我们会让 AI 变好'的人。” AI 是我们一生中最强大的技术——需要更多人参与塑造它,而不是信任少数公司闭门决策。开放性帮助:非 AI 领域的研究者、政府、所有人都能理解正在发生什么。
本章小结
AI 产业的经济学正在极速重构:1200 倍的成本下降被 Jevons 悖论抵消,总需求持续增长。GPU 走私成为新的地下产业。蒸馏和人才流动使得知识产权边界极度模糊。日本的独特法律+能源+硬件组合创造了意外的训练优势。Nathan 的 AI2/Tulu 工作证明了完全开放的后训练可以达到前沿水平。
评测方法:从模型分数到系统能力
为什么单点 Benchmark 常常误导
访谈里反复出现一个信号:很多争论看起来在谈“模型是否更强”,实际在谈“系统是否可部署”。这两者在 2025 年已经明显分离。一个模型在数学基准上领先,不代表它在真实工作流里能替代人类;一个模型在 Chatbot Arena 排名高,也不代表它能稳定完成跨系统任务。
Lex 在节目中给出的主观测试很有代表性:在哲学问题上 O1 Pro 稳定第一,R1 第二,Gemini Flash Thinking 第三。但这只是“单回合高质量回答”维度。Dylan 与 Nathan 更关注的维度是:
- 单位任务成本(不仅是 token 单价,还包括重试与监督)
- 长任务成功率(10-100 步流程下的端到端完成率)
- 失败模式可诊断性(失败后能否快速定位是 Prompt、Tool、模型还是系统问题)
- 在受限算力下的吞吐能力(并发、延迟、KV Cache 占用)
“模型评测”与“系统评测”应分层
模型层(Model-level):MMLU、AIME、Code benchmark、Arena 偏好分。用于比较能力上限。\ 系统层(System-level):端到端任务成功率、平均重试次数、P95 延迟、单位结果成本。用于判断业务可行性。\ 组织层(Org-level):修复速度、数据回流效率、发布节奏、回归稳定性。用于判断是否可持续领先。
访谈中的核心观点不是“谁榜单第一”,而是“谁能把能力转化为稳定产能”。这也是为什么他们强调基础设施、供电、工程流程,而不只谈参数量。
成本感知评测:把准确率和美元放在一张表里
很多团队在 PoC 阶段只看准确率,忽略了推理时计算与重试成本,最终上线后才发现单位经济不可持续。结合节目中的讨论,一个更实用的评测框架是:
| 指标 | 定义与实践建议 |
|---|---|
| 一次通过率(Pass@1) | 单次运行直接完成任务的比例,反映真实体验上限 |
| 重试后通过率(Pass@k) | 允许 k 次重试后的完成率,反映“用钱换成功率”能力 |
| 单位成功成本 | 每次调用成本 \(×\) 平均调用次数 / 成功任务数 |
| 单位成功时延 | 从任务开始到得到可用结果的总时间(含重试) |
| 人工兜底比例 | 需要人类接管的比例;直接决定组织可扩展性 |
如果只看 Pass@1,推理模型可能看起来“偏慢偏贵”;但如果看 Pass@k 与人工兜底比例,推理模型在复杂任务中可能更省总成本。R1、O1 这类模型的价值通常不在“便宜调用一次”,而在“减少人工反复修错”。
评测结论必须写成 “能力-成本-风险” 三元组
一个可执行的结论模板是:
- 能力:在哪些任务上显著优于基线(例如多步代码修复、数学证明)
- 成本:每提升 1% 成功率要多花多少预算与时延
- 风险:最常见失败模式是什么、触发条件是什么、兜底机制是否存在
只有把三者写在一起,模型评测才能指导上线决策,而不只是做一份漂亮的 benchmark 报告。
长任务可靠性:“几个九”才足够
访谈中的 “how many nines” 本质上是可靠性乘法。若每一步成功率是 \(p\),任务共 \(n\) 步,则端到端成功率约为 \(p^n\)。这解释了为什么 Agent 在短链路表现可接受,但长链路会迅速失效。
| 单步成功率 | 10 步任务 | 30 步任务 | 100 步任务 |
|---|---|---|---|
| 99% | 90.4% | 73.9% | 36.6% |
| 99.5% | 95.1% | 86.1% | 60.6% |
| 99.9% | 99.0% | 97.0% | 90.5% |
这也是为什么 Dylan 反复强调:开放环境 Agent 的关键不在 “会不会下一步”,而在 “是否能在几十步后仍可控”。因此,真正实用的路线往往是先把任务拆成可验证子任务,再通过 orchestrator 控制每一步的输入输出边界。
避免把 “Demo 成功” 误判为 “系统可靠”
在访谈中能看到大量成功案例,但工程落地常见的误判是:
- 在同一数据集上反复调 Prompt,得到高分后直接上线
- 忽略环境漂移(网页改版、API 升级、权限变化)导致的失败爆发
- 只统计成功案例,不记录失败轨迹和恢复成本
对 1 小时以上多环节任务,建议把 “失败后自动回滚” 与 “人工接管点” 设计成一等公民,而不是事后补丁。
本章小结
评测不应停留在分数层面,而要转向“能力-成本-风险”联合度量。对推理模型与 Agent 系统,端到端可靠性和单位成功成本比单点 benchmark 更重要。长任务的乘法失真决定了:没有验证机制与兜底流程,就没有可持续部署。
组织与执行:为什么 DeepSeek 形成速度优势
研究、系统、基础设施的一体化闭环
访谈反复给出一个隐含结论:DeepSeek 的优势不仅是某个算法点,而是跨层联动能力。MoE、MLA、底层通信优化、推理服务策略,并不是孤立团队各自做出来再拼接,而是围绕同一瓶颈(受限算力)共同收敛。
| 层级 | DeepSeek 式做法(根据访谈) |
|---|---|
| 模型层 | 用 MoE 降低激活参数,用 MLA 缓解 KV Cache 压力 |
| 系统层 | 在 CUDA/NCCL 下方做通信路径优化,减少互连限制带来的损失 |
| 服务层 | 在推理侧优先放大可验证任务收益,牺牲部分通用体验换性价比 |
| 组织层 | 允许研究与工程围绕同一目标快速迭代,而非线性交付 |
这类协同很难通过采购复制。买同样的 GPU,不等于具备同样的性能产出;真正差异在于团队能否把 “论文创新” 变成 “端到端吞吐提升”。
从 Ablation 到 YOLO Run:高风险决策的工程化
Nathan 描述的 “YOLO run” 是前沿训练的典型范式:小规模消融验证方向,随后在窗口期集中资源做一次超大规模训练。听起来像赌博,实际上前提是严格的实验纪律和快速复盘能力。
一个可落地的 “YOLO run” 运行手册
- 明确本轮唯一优化目标(例如验证某个架构是否在固定算力预算下提升有效 token)
- 预先定义中止条件(loss 异常、梯度爆炸、吞吐偏离阈值)
- 为常见故障准备回退路径(checkpoint 策略、数据切换、混精度降级)
- 训练结束后在 24-48 小时内完成 postmortem,更新下一轮 ablation 清单
没有这些机制,“YOLO” 只是冒险;有这些机制,“YOLO” 才是可管理的高杠杆研发方式。
在节目里,二人提到训练期间持续盯 loss 曲线、反复处理 spike。这些细节说明:前沿能力不是靠一次灵感,而是靠高强度、可重复、可纠错的工程过程。
发布策略:速度本身就是竞争武器
“DeepSeek ships” 是访谈里很关键的一句。快速发布不是营销口号,而是学习机制:更早进入真实流量 \(\to\) 更早发现失败模式 \(\to\) 更快修复 \(\to\) 更快进入下一轮优化。
这种策略有代价:品牌风险、安全争议、运维压力。DeepSeek 的取舍是牺牲部分稳定性换取学习速度,而 Anthropic 的取舍接近相反。两种路线都自洽,但对应不同组织目标。
速度优势最容易被错误 KPI 抹杀
很多组织口头上追求速度,实际上用 “零事故”、“单次发布必须完美” 作为核心 KPI,最终把迭代速度锁死。访谈给出的现实是:前沿竞争期里,“可控失败 + 快速恢复” 往往比 “追求一次到位” 更有胜率。
本章小结
DeepSeek 的速度优势来自跨层协同、工程化高风险决策和发布反馈闭环。它不是一个可被单点抄袭的技巧,而是组织结构、研发纪律与资源调度共同作用的结果。
落地清单:企业、研究团队与政策制定者
面向企业应用方:先把 “可验证流程” 做厚
对多数企业而言,正确顺序不是 “先追最新模型”,而是 “先定义可验证任务”。访谈中多次提到代码、数学之所以推进快,是因为有明确验收器(tests / checker)。
企业落地的 6 步最小闭环
- 选 1-2 条可自动验收的高价值流程(如代码修复、文档抽取、工单路由)
- 建立统一评测集,固定基线模型与基线 Prompt
- 采用 Pass@k + 单位成功成本作为核心指标
- 强制记录失败轨迹(输入、工具调用、错误类型、恢复路径)
- 设计人工接管点与回滚机制
- 每周复盘一次失败 Top10,再决定是否切换模型
如果一开始就追求 “全自动 Agent”,通常会掉进可靠性与治理双重陷阱。
面向基础模型团队:把 “训练优势” 转成 “服务优势”
访谈指出了一个常见断层:模型在论文和 benchmark 上领先,但服务侧并发、延迟、可用性跟不上,最终被第三方托管平台拿走价值。要避免这个断层,至少要同步优化三件事:
- 推理架构:KV Cache 策略、批处理策略、长上下文调度
- 产品契约:哪些能力可承诺、哪些仅实验性开放
- 开发者体验:错误可解释性、配额透明度、版本升级节奏
| 目标 | 建议动作 |
|---|---|
| 降低幻觉成本 | 在可验证链路强制 tool-use + checker,减少纯自然语言闭环 |
| 降低重试成本 | 输出结构化错误码与失败原因,减少盲目重试 |
| 提高迁移效率 | 新模型发布时提供兼容层与退回开关,避免开发者一次性重写 |
面向政策制定者:把管制目标写成可测指标
节目中关于出口管制的最大启发是:若目标只写 “限制训练 flops”,执行层会出现大量替代路径(内存、互连、租用、拆分实体)。政策需要从 “名义限制” 升级为 “可测结果”。
一个更可执行的政策框架可包含:
- 训练能力指标:算力获取门槛、关键器件可得性
- 部署能力指标:大规模推理集群可持续运行能力
- 扩散能力指标:跨境租用与转售链条透明度
- 风险能力指标:关键基础设施(电网、通信)抗 AI 攻击韧性
不要只管 “芯片进没进来”,还要管 “能力有没有形成”
如果政策评估只看硬件流向,可能在统计上 “合规”、在能力上 “失守”。访谈给出的现实案例(分布式租用、灰色转运)说明:政策 KPI 必须与最终能力形成挂钩,否则容易自我安慰。
本章小结
无论是企业、模型团队还是政策制定者,关键都在于把目标变成可验证、可迭代、可审计的闭环。AI 竞争不是一次性胜负,而是持续把技术优势转化为稳定执行优势的过程。
未来 24 个月情景推演
情景 A:模型快速进步,部署仍受物理约束
这是访谈中最一致的判断:能力会继续提升,但部署节奏受电力、冷却、供应链和组织治理约束,无法“一夜重写所有行业”。在这个情景下,最先受益的不是最科幻的应用,而是可验证、可集成、可审计的工作流。
| 行业层 | 最可能先发生的变化 |
|---|---|
| 软件研发 | 代码修复、测试生成、迁移重构自动化率持续提升 |
| 企业服务 | 工单分拣、文档抽取、合规审阅进入半自动化常态 |
| 制造与供应链 | 计划仿真、异常定位、参数调优由人机协同完成 |
| 公共部门 | 历史系统改造缓慢,但高频事务场景出现局部突破 |
这个情景里,“谁最早接入最强模型”不是决定性优势,“谁能把模型接入稳定流程”才是优势来源。企业护城河从 “模型采购能力” 转向 “流程重构能力”。
情景 B:地缘分裂加速,技术栈出现双轨生态
访谈对出口管制与扩散规则的讨论隐含了一个中期风险:全球 AI 栈可能出现 “部分可互操作、部分不可互操作” 的双轨化。硬件、云资源、模型许可、数据合规会形成不同监管区块。
双轨生态中的隐藏成本
企业经常低估三类成本:
- 合规切换成本:同一能力在不同区域要维护不同供应链与审计流程
- 模型切换成本:许可证和 API 契约不一致,导致迁移成本陡增
- 人才协同成本:跨区域团队难以共享同一套工具与数据回路
这意味着 “多模型备份”、“多云容灾” 不是可选项,而是中期经营韧性的基础建设。
如果双轨化加速,开源模型的重要性会进一步上升,因为它们在技术兼容与议价能力上提供了缓冲层。Nathan 强调开放后训练配方的原因之一,正是让生态具备抗垄断与抗封锁能力。
情景 C:安全事件驱动监管跳变
若出现高影响力事故(例如关键基础设施遭到大规模 AI 辅助攻击),监管节奏可能从渐进改为跳变。届时市场会出现短期 “能力收缩”,但中长期反而强化了可审计系统的价值。
在监管跳变前应预置的能力
- 任务级审计日志(输入、模型版本、工具调用、输出)
- 关键决策的可解释证据链(为什么给出这个动作建议)
- 风险分级的自动熔断机制(高风险任务触发人工审批)
- 模型与数据版本回溯能力(可定位问题来源)
具备这些能力的团队,在监管变化时不是被动停摆,而是可以更快通过审计并恢复业务。
本章小结
未来两年最可能出现的是 “能力快进步、系统慢落地” 的结构性张力。地缘分裂与监管跳变会放大执行能力的重要性。真正的竞争不只是模型强弱,而是谁能在不确定环境下保持连续交付。
工程蓝图:把推理模型接进生产系统
分层架构:Planner / Executor / Verifier
结合访谈里对可验证任务、长链路可靠性和成本约束的讨论,一个实用的工程蓝图是三层架构:
- Planner:负责任务拆解、工具选择、预算控制
- Executor:调用模型与工具执行子任务
- Verifier:对每步产物做规则校验、测试校验或一致性校验
为什么三层架构比 “单模型全能” 更稳
单模型端到端虽然开发快,但难以控制失败边界。引入 Verifier 后,可以把错误拦截在子任务层,而不是让错误一路传播到最终结果。对 30+ 步任务,这种差异会指数放大。
在这个蓝图里,强推理模型应优先用于 “高不确定、高代价” 步骤;低成本模型处理 “高频、低风险” 步骤。这样既保持质量,也控制总体预算。
上下文与记忆:避免 “越做越乱”
长任务失败的常见原因不是模型不会做,而是上下文污染:早期错误信息被当成真相持续传播。访谈中对 KV Cache、长上下文成本的讨论说明,“无限上下文” 并不能自动解决记忆质量问题。
| 问题 | 工程对策 |
|---|---|
| 上下文膨胀 | 采用阶段性摘要与状态快照,而不是无上限追加历史 |
| 错误记忆固化 | 对关键事实设置信任等级,低信任信息必须二次验证 |
| 跨工具语义漂移 | 使用结构化中间表示(JSON schema / typed state) |
| 重试污染 | 每次重试从干净状态回放,避免在错误轨迹上叠加修补 |
上线策略:灰度、回滚与人机分工
推理模型上线不应采用 “全量替换”,而应采用 “场景灰度”。可按风险等级分层:
- L1(低风险):可自动执行,抽样人工复核
- L2(中风险):模型建议 + 人类确认
- L3(高风险):模型仅给分析,不直接执行
最危险的上线方式:把 L3 任务当 L1 处理
当组织在 KPI 压力下过早追求自动化率,最常见错误是把高风险流程直接自动执行。这类错误一旦触发,通常不是 “精度下降”,而是 “事故级” 后果。访谈对网络攻击、电力系统脆弱性的担忧,本质上就是在提醒这条边界。
此外,回滚必须是 “可演练” 的,而不是只写在文档里。建议每月进行一次故障演练:随机注入模型异常输出,验证系统是否能在限定时间内切回人工路径。
本章小结
推理模型的生产化不只是 Prompt 工程,而是系统工程。分层架构、上下文治理、风险分级上线与可演练回滚,决定了模型能力能否转化为稳定生产力。
花絮、阴谋论与被低估的玩家
这一节收录了访谈中零散但极有价值的洞察和故事——它们不属于任何单一主题,但每一个都揭示了 AI 产业的某个侧面。
阴谋论 vs 真相
围绕 DeepSeek 的阴谋论在社交媒体上疯传。Dylan 和 Nathan 逐一拆解:
“中国政府在补贴 DeepSeek”:不太可能。DeepSeek 由幻方量化(对冲基金)资助,不是政府关联企业。梁文锋后来确实与政府领导会面,但那是 DeepSeek 成功之后——政府是在蹭热度,不是在背后资助。
“他们在发布前做空了 NVIDIA 股票”:也不太可能。V3 在 12 月 26 日发布——谁会选择圣诞节后第一天发布来配合做空?“我觉得他们只是在赶工——谁在乎圣诞节,赶在中国新年前发出来就行。” (Nathan)
“只花了 600 万美元训练”:这是对论文的严重误读。$5.576M 是 V3 预训练一次运行的 GPU 小时成本。不包括前期实验(可能跑了数十次小规模消融)、后训练、R1 训练、推理服务。实际总投入可能是这个数字的 10-50 倍。
被低估的 Gemini Flash Thinking
Lex 的个人测试中,Google 的 Gemini Flash Thinking 可能比 R1 更便宜且不弱——但几乎没人谈论它。原因可能是:
- Google 的营销远不如 DeepSeek 的开源策略吸引眼球
- Flash Thinking 可能使用了不同的方法(在现有架构上叠加推理,而非专门的推理训练)
- DeepSeek 的“中国黑马”叙事更有传播力
这是一个关于“技术 vs 叙事”的教训——最好的技术不一定赢得最多关注。
PyTorch PowerPlant.NoBlowUp
训练大型集群时,GPU 的功率波动可以摧毁电力设备。计算阶段高功率(所有 GPU 全力计算)\(\to\) 通信阶段低功率(GPU 等待数据交换)。这种脉冲式负载对变压器和配电设备非常危险。
Meta 的工程师写了一个 PyTorch 算子来解决这个问题:在 GPU 空闲期让它们计算无意义的数字(假乘法),纯粹为了维持稳定功率。这段代码意外被开源——一个叫 PowerPlant.no_blowup = 1 的操作符。
“你很容易就能把东西炸了。” (Dylan) 这个故事完美说明了 AI 训练中“无聊但关键”的工程挑战——问题不是算法突破,而是如何不让你的电力变压器爆炸。
Anthropic 的安全困境
Anthropic 据报道拥有比 O3 更好的推理模型但因安全考虑不发布。R1 的 Chain-of-Thought 确实可以令人不安——在中英文之间切换、出现类似乱码的片段、然后突然给出正确答案。
DeepSeek 的激进发布降低了所有人的安全标准——类似于冷战时期苏联太空计划对美国 NASA 的压力。“DeepSeek ships. That's one of their big advantages.” (Nathan) 快速发布本身就是一种竞争武器。
Sam Altman 的预言
引用 Sam Altman 的一句被频繁提到的话:“超人说服力将在超人智能之前到来。” 这对 AI 安全的含义深远——在 AI 能“真正思考”之前,它可能已经能“真正说服”。Character AI 的聊天机器人已经在影响年轻用户的情绪——如果是故意的文化/政治操纵呢?
Zuckerberg 在财报电话会上的公开声明也耐人寻味:“对我们的国家优势来说,开源标准应该是美国的,这很重要。” 开源不仅是技术策略,也是地缘政治工具。
本章小结
AI 产业充满了引人入胜的细节:从“不要炸了变压器”的工程挑战,到“600 万美元”的误读,到被低估的 Gemini,到开源作为地缘政治武器。这些花絮揭示了一个比技术论文更丰富、更混乱、更人性的行业现实。
总结与延伸
阴谋论与真相
围绕 DeepSeek 的阴谋论纷飞:中国政府在补贴 DeepSeek?不太可能——它由对冲基金资助,不是政府关联企业。他们在发布前做空了 NVIDIA 股票?也不太可能——V3 在 12 月 26 日发布(圣诞节后第一天)。“我觉得他们只是在赶在中国新年前发布——谁在乎圣诞节。” (Nathan)
NVIDIA 股价暴跌:社交传染 + 错误叙事(“模型花了几十亿”——实际上没有任何公开模型花费超过 $1B 训练)。Jevons 悖论很快被验证:DeepSeek 发布后 AWS H100 价格不降反升,H200 几乎脱销。
核心要点
| 主题 | 核心观点 |
|---|---|
| DeepSeek 技术 | MoE + MLA + CUDA 底层优化 = 受限硬件上的极致工程 |
| 出口管制 | 限制训练效果有限,限制推理部署更关键;可能加速中国自主创新 |
| 推理模型 | R1-Zero 是 Alpha Zero 时刻;可验证域是扩展 RL 的关键 |
| TSMC | 全球科技最大单点故障;Intel 衰落加剧集中度 |
| 基础设施 | Stargate 级 $100B 投资;能源和 GPU 走私是新约束 |
| 开源 | R1 的 MIT 许可证是“重大重置”;AI2 Tulu 证明开放后训练可达前沿 |
| 产业格局 | 只有 NVIDIA 赚钱;Agent 六个九问题未解决;SWE 变革最快 |
对未来的展望
Nathan:人类在 1000 年后仍会存在——不担心 AI 接管(物理原因限制了机器人的速度)。但担心技术法西斯主义——脑机接口创造出人-AI 融合精英阶层。核心动机:“我不信任那些说'相信我兄弟,我们会让 AI 变好'的人。” AI 是我们一生中最强大的技术——需要更多人参与塑造。
Dylan:总体乐观。AI 将通过逐利机制增加丰裕、减少苦难。但担心过渡期的人类痛苦峰值。对基础设施的未来最兴奋:协同封装光学、多数据中心训练、新型交换网络。“人类进步的速度达到了前所未有的水平。” 计算栈的每一层都在创新:铜缆、空调、变压器、光刻。
“有一种根本性的人类善良,我们要做的是放大它。” (Nathan)
“刷手机维持了世界的现状——那已经是一个正面的结果。” (Dylan)
拓展阅读
- DeepSeek V3 技术报告(2024 年 12 月)
- DeepSeek R1 技术报告(2025 年 1 月)
- SemiAnalysis: semianalysis.com — Dylan Patel 的半导体分析
- Nathan Lambert: Interconnects 博客 — AI 研究与开源
- AI2 Tulu 项目:完全开放的后训练配方
- Rich Sutton, The Bitter Lesson, 2019
- Andrej Karpathy 关于 R1-Zero 的推文讨论