姚顺宇访谈:在 Anthropic 与 Gemini 训练模型,个人英雄主义之后
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于 Zhang Xiaojun Podcast 公开视频、字幕与原视频画面整理 |
| 来源 | Zhang Xiaojun Podcast |
| 日期 | 2026-05-12 |

导读:这不是一场模型发布会,而是一张 2026 年 AI 研究的横截面
这期访谈的主角是姚顺宇:清华物理本科、斯坦福理论物理博士,短暂进入 Berkeley 做博士后后转向 AI,先后在 Anthropic 与 Google DeepMind 做前沿模型训练工作。访谈题目虽然带着人物故事色彩,但真正有价值的部分,是它把 2026 年初模型实验室内部的一组问题串了起来:模型能力是否同质化、预训练是否到头、coding 与 long-horizon agent 为什么突然爆发、蒸馏的边界在哪里、Anthropic 与 Gemini 的组织差异,以及为什么姚顺宇认为 AI 时代已经不再是个人英雄主义的时代。
本笔记的阅读方式
本笔记不是逐字转写,而是把 3 小时 48 分钟访谈压缩成一份结构化技术笔记。每一章都保留访谈中的核心判断,并补充必要背景:benchmark、scaling law、agentic coding、distillation、long horizon、TPU/GPU 拓扑、组织设计等。人物经历部分服务于理解研究品味和选择,不会展开成传记。

来源:视频画面时间区间:00:04:12–00:04:40。画面本身是访谈场景,教学价值在于定位人物与问题背景。
读图:封面与人物帧的作用
本期不是幻灯片课程,视频画面主要提供语境证据:谁在说、在哪一段说、讨论对象是否已经切换。读者不应从人物画面本身推断技术结论,而应把它当作章节锚点,技术判断来自字幕、章节和上下文整理。
访谈主线
访谈从“两个姚顺宇”的身份辨析开始,迅速进入 AI 行业判断:三大模型实验室在纸面 benchmark 上接近之后,差异转向问题定义、数据构造、产品形态和组织执行。随后,姚顺宇用自己的物理训练经历解释为什么他偏好困难问题、为什么重视实验验证,最后落到组织与集体主义:现代大模型已经太复杂,单个英雄很难独立推动系统级跃迁。
章节地图
| 时间段 | 原视频章节 | 本笔记处理重点 |
|---|---|---|
| 00:00–00:07 | 两个 Shunyu Yao | 嘉宾履历、物理转 AI、两位同名研究者的差异 |
| 00:07–00:25 | 竞争与逃逸 | benchmark 同质化、模型差异从能力转向行为定义 |
| 00:25–00:35 | Pre-train 没有到头 | scaling law、数据墙、预训练学习能力 |
| 00:35–00:54 | Coding 的爆发 | agentic coding、长程任务、产品 wrapper 与模型壁垒 |
| 00:54–01:08 | 蒸馏与机器人 | 硬蒸/软蒸、资源劣势下的中国模型策略、机器人机会 |
| 01:08–01:52 | 物理经历 | 非厄米系统、高能物理、物理训练对 AI 实验观的影响 |
| 01:52–02:41 | Anthropic | Claude 训练、top-down 机制、产品化与 Claude Code |
| 02:41–03:01 | Gemini | ML coding、long horizon、有限训练与近似无限使用 |
| 03:01–03:48 | 预测、组织、集体主义 | neo lab、C 端产品、TPU/GPU、AI 研究员素质、个人英雄主义之后 |
本章小结
本期访谈最重要的信号不是“某家公司更强”,而是前沿模型训练已经进入一个更难外部观察的阶段:公开指标差距缩小,真实差异藏在数据、评估、行为定义、工具使用、长期任务和组织执行里。理解这期访谈,关键是把它当作“AI 工程组织如何在高不确定性下做 bet”的案例。
从 benchmark 竞争到问题定义竞争
姚顺宇认为,2026 年初的前沿模型格局已经不再是简单的“谁追不上谁”。Gemini、OpenAI、Anthropic 这几家在公开 benchmark 上的差距明显收窄,SWE-bench、AIME、IMO 等指标仍有参考价值,但很多时候一两个百分点已经接近噪音,而不是稳定信号。模型的真实差异更多体现在用户体验:Claude 在通用工具使用和 agent 上仍然强,Codex 在纯 coding 方向缩小差距,Gemini 在纯 reasoning 和日常使用上有优势,但这些差异不一定能被单一公开分数捕获。

来源:视频画面时间区间:00:16:20–00:16:55。本图用于标记讨论 benchmark 同质化的上下文。
读图:benchmark 讨论应看什么
这张图没有曲线或表格,重点是把读者带回访谈现场:这一段正在从公司竞争切到评估方法。真正要比较的是三层信息:公开榜单、内部评估、真实用户体验;画面只证明该论述来自原视频对应区间。
核心判断:差异从“能不能做”转向“要它怎么做”
早期模型差异常表现为能力差异:谁更会推理、谁更会写代码、谁更会调用工具。当前前沿模型接近后,难点转向定义目标行为:什么才算好 agent,什么才算好 coding assistant,什么样的 long-horizon 行为值得优化。也就是说,竞争对象从单纯模型能力转向任务定义、数据构造、评估体系和产品反馈闭环。
术语消化:公开指标为何会失真
| 术语 | 解决的问题 | 访谈中的含义 |
|---|---|---|
| SWE-bench | 衡量模型修复真实软件 issue 的能力 | 当前强模型已接近高分区,一两个百分点差异未必代表真实产品体验差异。 |
| AIME / IMO | 数学推理 benchmark | 能显示 reasoning 能力,但不能直接说明模型在工具使用、产品协作、长期任务中的表现。 |
| Noise vs Signal | 区分随机波动与稳定趋势 | 姚顺宇强调,公开榜单接近时,小差距更可能是噪音;要看内部评估和真实使用。 |
| Behavior Definition | 明确模型应当表现出的行为 | 当前核心难点:不是“模型会不会”,而是“应该怎样做才算对”。 |
不要把榜单分数当成完整能力画像
榜单通常压缩了任务、数据分布、评分规则和失败模式。当前模型实验室的竞争越来越像“高维行为优化”:同样 80% 的 SWE-bench 分数,可能对应完全不同的交互体验、工具调用策略、失败恢复能力和用户信任感。
为什么意愿曾经决定能力差异
访谈中反复出现一个词:意愿。姚顺宇说,过去模型能力差异很大程度来自公司愿不愿意把资源投向某类能力。Claude 长期重视 tool use 和 coding,OpenAI 一段时间重视 reasoning,这些选择都会影响 infra、数据、评估和训练管线。前沿模型训练不是只靠一个算法想法,而是靠持续投入把行为目标变成可训练的数据和可追踪的指标。
数据不是中性资源
姚顺宇举了一个很有意思的例子:早期模型写代码好,部分原因可能不是大家预先设计了多么高级的 coding pipeline,而是互联网中的 GitHub 数据天然比普通网页质量更高。也就是说,模型行为有时来自数据分布中的隐性偏置;研究者事后才理解“为什么它学会了这个”。
本章小结
模型竞争进入新阶段后,公开 benchmark 仍重要,但不再足以解释全部差异。前沿实验室真正竞争的是:谁能更好地定义任务、构造数据、搭建评估,并把这些转化成稳定的模型行为。
“Pre-train 没有到头”:scaling law 与数据墙
当主持人问模型进步速度是否放缓时,姚顺宇明确回答“完全没有”。他的理由不是某个 benchmark 还在涨,而是作为研究员的体感:模型学习东西的能力变强了。以前让模型学会某件事需要很多技巧,现在更重要的是把问题定义清楚、构建合适数据和环境,剩下很多事情会“顺其自然”。

来源:视频画面时间区间:00:30:10–00:30:38。该帧来自预训练章节中段,用于定位讨论场景。
读图:预训练章节的视觉证据
画面仍是双人访谈,说明这里没有官方幻灯片或公式板书。阅读时应把“Pre-train 没有到头”理解为口头判断,需要结合后文的 scaling law、数据墙和用户体验讨论,而不是把单帧画面当作实验证据。
核心判断:benchmark 饱和不等于能力增长停止
如果指标上限是 100%,越接近上限,月度增长自然变慢。但用户体验的增长不一定线性对应 benchmark 分数。从 70% 到 75% 可能比从 50% 到 60% 更有体感,也可能在某些任务上没有体感。真正的问题是:模型是否仍能通过更好的预训练、数据和环境获得新的泛化能力。
scaling law 的三种“到头”含义
姚顺宇把“预训练到头”的可能原因拆成几类。第一,规律本身可能有适用范围,无法无限延展。第二,规律需要的某个条件无法满足,例如高质量数据不够。第三,外部观察者可能只看到某类指标饱和,却误以为底层学习能力饱和。
| “到头”说法 | 真实含义 | 应如何验证 |
|---|---|---|
| 规律适用范围到头 | scaling law 不再外推 | 需要跨规模实验,而不是单点 benchmark 观察。 |
| 数据墙 | 高质量数据无法继续扩展 | 要看数据治理、合成数据、环境数据、交互数据能否补足。 |
| 指标饱和 | 某个公开测试接近上限 | 要换更难、更真实、更贴近产品的评估。 |
| 体验边际下降 | 用户不再感到显著提升 | 要分析任务分布,而不是只看平均分。 |
预训练在这里不只是“继续喂文本”
访谈中的 pre-training 指向更宽泛的底座学习能力。它包括模型从大规模数据中学到世界知识、代码结构、语言模式、任务先验和抽象能力。后训练、工具使用、强化学习和环境数据会改变模型行为,但底座的学习能力仍决定了很多上限。
“数据墙”不是一句口号
说数据撞墙,至少要回答三件事:哪类数据撞墙,质量定义是什么,替代数据或环境反馈是否真的不可用。姚顺宇的态度是:未来几个月看不到预训练到头的迹象,但这不等于 scaling law 可以无限外推。
本章小结
预训练是否到头,不能只看公开榜单。姚顺宇的判断强调“模型学习能力”仍在增强,而下一阶段更依赖问题定义、数据构造和环境设计。scaling law 的争论本质上是对可扩展资源、数据质量和评估边界的争论。
Coding 的爆发:从写代码到长程代理
访谈中最密集的技术讨论之一,是 coding 与 agentic workflow 的爆发。姚顺宇认为,OpenClaw 一类产品在技术上并不令人惊讶,因为相关能力在更早的 Claude/Opus 阶段已经可以展示;它真正的价值是让更多人意识到:可以让模型控制多个工具、调用多个模型、聚合结果,并完成很长的 long-horizon 任务。

来源:视频画面时间区间:00:42:57–00:43:25。该帧对应 coding 产品形态讨论的中段。
读图:coding 爆发的证据类型
本节图像用于时间定位,不展示 OpenClaw 或 Manus 的界面。有效证据来自访谈中的因果链:模型工具使用能力已经具备、产品把可能性展示出来、长程任务共识被触发。不要把人物帧误读为产品截图。
从代码补全到 long-horizon agent
早期 coding 模型主要生成一段代码;agentic coding 则要求模型理解代码库、规划多步修改、运行测试、解释错误、回滚或修复,并在长时间上下文中保持目标一致。能力差异不只在“会不会写函数”,而在工具调用、状态管理、错误恢复和任务收敛。
Manus、OpenClaw 与 wrapper 的壁垒问题
姚顺宇没有把 Manus 与 OpenClaw 的差异解释成清晰的技术代际。他更关注一个商业问题:如果 wrapper 没有自己的模型壁垒,长期生存会很难。当前很多壁垒仍在模型侧;产品侧是否能形成数据飞轮,还没有被证明。除了 agentic coding,他认为真正 AI-native 且已成功的场景并不多。
什么是 AI-native 场景
AI-native 场景不是“把 AI 加到旧产品里”,而是任务形态本身因为模型能力而改变。Chatbot 可看作搜索的交互式扩展;agentic coding 则更接近新形态,因为它把写代码、运行环境、调试、测试和项目管理连成一条工作流。
产品经理为什么暂时难被替代
访谈中对 Claude Code、Cowork 等产品的讨论,指向一个重要判断:AI 产品经理的价值不再只是按钮摆放和 feature 排序,而是理解“人如何与 AI 协作”。好的产品形态会改变交互方式,就像短视频改变内容消费,Claude Code 改变软件工程入口。
不要把 wrapper 一概看低
“wrapper 没有壁垒”是市场常见说法,但并不意味着所有 wrapper 都无价值。真正的问题是:它能否形成工作流锁定、数据反馈、用户习惯、团队执行和模型侧深度集成。没有这些,wrapper 容易被模型公司吸收;有这些,就可能变成新入口。
本章小结
Coding 的爆发不是单点模型能力提升,而是模型能力、工具链、评估、环境和产品形态共同成熟的结果。OpenClaw/Manus 的讨论说明:产品展示可能比技术突破更早触发大众共识,但长期壁垒仍取决于模型、数据和工作流闭环。
蒸馏、资源劣势与中国模型公司的机会
谈到中美模型差距时,姚顺宇认为过去一年到一年半 gap 在缩小,但能否完全弥合甚至反超仍不确定。他特别提到,中国模型公司在算力资源上处于劣势,这种劣势可能逼出一些有趣策略,其中之一就是 distillation。

来源:视频画面时间区间:00:59:30–01:00:00。该帧对应硬蒸/软蒸的讨论场景。
读图:蒸馏段落如何使用画面
画面只能说明时间来源,不能说明蒸馏方法细节。蒸馏的技术信息需要读相邻表格:硬蒸、软蒸、环境蒸馏和自我蒸馏的区别在训练信号,而不是在视觉元素。
硬蒸与软蒸
姚顺宇把蒸馏分成粗糙的“硬蒸”和更有科学含量的蒸馏。硬蒸就是直接拿大模型生成 token 强行训练,既有商业伦理问题,也显得智力上贫乏,因为它说明团队不知道自己真正想优化什么。更聪明的蒸馏则可能围绕能力迁移、偏好学习、数据生成、任务定义展开:不是抄答案,而是用强模型帮助构造更好的训练信号。
| 类型 | 做法 | 风险/价值 |
|---|---|---|
| 硬蒸 | 直接收集强模型输出 token 做训练 | 法务和伦理风险高;容易学表面答案,缺少行为目标。 |
| 软蒸 | 利用强模型辅助生成任务、反馈、解释或偏好信号 | 更接近科学问题:如何把能力、过程和评估迁移到弱模型。 |
| 环境蒸馏 | 让模型在任务环境中产生轨迹,再筛选/评分 | 对 agent/coding 更有价值,但基础设施复杂。 |
| 自我蒸馏 | 用模型自身或同族模型迭代提升数据 | 可能形成闭环,也可能放大错误和模式崩塌。 |
蒸馏的本质不是复制答案,而是设计训练信号
如果不知道自己要什么,蒸馏会退化成抄输出;如果清楚目标行为,蒸馏可以变成数据工程和能力迁移工具。两者差异在于:是否有明确任务定义、评估标准和失败分析。
机器人为什么仍有机会
访谈中,姚顺宇对机器人实验室表达了比语言模型更强的兴趣,因为机器人仍有许多没有被做好的问题。语言模型已经不是蓝海;真正年轻的人如果想找机会,未必应该追逐最热方向,而应该找“没人做到好”的方向。机器人、多模态生成、量子调控等都可能是更蓝海的空间。
资源劣势可能改变研究品味
当算力不能无限堆,团队会被迫重视效率、蒸馏、数据选择、训练信号和产品落地。资源劣势不是优势本身,但可能促使不同路径出现。中国模型公司的机会,可能正来自这种路径差异。
本章小结
蒸馏不是一个简单的“偷不偷”问题,而是训练信号设计问题。硬蒸风险高且暴露目标缺失;软蒸和环境蒸馏则可能成为资源受限团队提升能力的重要路线。
物理训练如何塑造 AI 研究品味
姚顺宇的物理经历不是访谈的花絮,而是理解他研究判断的重要背景。他本科做凝聚态理论,后来做理论高能、量子信息与黑洞相关方向。谈到非厄米系统时,他强调本科时期的研究和现在做 AI 有相似性:先有一个理解或想法,再设计数值实验验证,最后把想法落实成 pipeline。

来源:视频画面时间区间:01:28:25–01:28:55。该帧用于标记物理背景讨论。
非厄米系统的直觉版解释
在普通量子力学里,哈密顿量通常是厄米的,这保证能量本征值是实数,系统演化保持概率守恒。非厄米系统则常用来描述开放系统、耗散、增益、测量或有效动力学。对 AI 笔记读者来说,不必深入物理细节,但要理解它训练出的研究习惯:面对复杂系统时,先构造可检验模型,再用数值实验逼近理解。
从物理到 AI 的迁移
物理训练强调:定义问题、建立简化模型、设计实验、观察异常、修正理论。大模型训练也类似:提出行为假设,设计数据和训练 pipeline,用实验观察 loss、benchmark、用户行为和失败案例,再回到假设。差异在于,AI 系统更工程化、更依赖组织协作。
“挑战不擅长的事”
访谈中,姚顺宇多次说自己喜欢挑战不擅长的事。离开物理并不是因为物理无趣,而是他觉得自己在那个方向已经看到很多比自己聪明的人,也想去挑战一个新领域。这个选择解释了他后来去 Anthropic、再去 Gemini 的动机:不是追求头衔,而是寻找能迫使自己学习新东西的环境。
不要把跨界神话化
从物理转 AI 并不自动意味着“降维打击”。姚顺宇反而多次说 AI 不一定需要最抽象的聪明,而需要靠谱、细致、负责。跨界带来的价值主要是研究品味和实验习惯,而不是天然优越感。
本章小结
物理背景给姚顺宇提供的是一种处理复杂系统的方式:从想法到实验,从实验到理解,再到 pipeline。这个方法迁移到 AI 后,表现为对问题定义、数据构造和实验验证的重视。
Anthropic:top-down 机制、Claude 训练与产品化
在 Anthropic 的经历是访谈中最重要的职业段落。姚顺宇谈到 Anthropic 的独特性:它能实行相对 top-down 的机制,这对其他模型公司很难。原因不只是组织文化,也和技术领导、项目聚焦、产品方向与模型训练之间的耦合有关。

来源:视频画面时间区间:02:14:38–02:15:05。该帧来自 Anthropic 训练经历讨论的中段。
Claude 3.7/4.5 与工具使用能力
访谈涉及 Claude 3.7、4.5 等模型训练,但很多细节因公司保密无法展开。可提炼出的关键点是:Anthropic 对 tool use、coding 和工作流产品化有长期投入,后续 Claude Code、Cowork 等产品把模型能力转成了工作效率入口。
模型能力需要产品出口
如果模型能力不能被产品形态释放,外部用户感知不到;如果产品形态没有模型能力支撑,也难以形成长期壁垒。Anthropic 的案例说明,前沿模型公司需要同时理解训练、评估、工具链和用户工作流。
top-down 为什么难复制
姚顺宇认为,Anthropic 的 top-down 机制很独特,OpenAI 和 Gemini 都不容易照搬。大公司和 startup 的打法不同:startup 需要 make bet,敢押注;大公司资源更多但流程复杂。top-down 的优势是能把方向、资源和执行统一起来,风险是如果判断错,整个组织会一起走偏。
| 组织类型 | 优势 | 风险 |
|---|---|---|
| Startup | 决策快,敢押注,方向统一 | 资源少,容错率低,壁垒不足时容易被收购或复制。 |
| 大公司 | 资源、算力、人才和基础设施强 | 流程长,方向多,难以形成一致 bet。 |
| Anthropic 式 top-down | 能把模型训练、产品和安全方向集中推进 | 依赖技术领导判断,错误方向代价高。 |
产品经理的新角色
访谈对 Claude Code 的讨论很有意思:好的 AI 产品经理不只是传统意义上的 feature 经理,而是懂得如何设计人与 AI 协作的界面。Claude Code 的价值在于,它让模型嵌入真实开发循环:读代码、改代码、跑测试、解释错误、继续迭代。
AI 产品不是“把模型接进去”
AI 产品化的核心是重写交互方式。聊天框是搜索的交互升级;Claude Code 是软件工程循环的交互升级;未来的 Cowork 类产品可能是协作办公的交互升级。产品经理需要理解模型边界、失败模式、上下文管理和用户信任。
本章小结
Anthropic 的案例说明,前沿模型竞争不能只看模型本身。组织能否快速押注、产品能否释放能力、技术领导能否处理训练与工作流之间的耦合,都会影响模型公司的外部表现。
Gemini:ML coding 与 long horizon
加入 Google DeepMind 后,姚顺宇的工作重心转向 ML coding 和 long horizon。ML coding 指向一个更激进的目标:让 AI 参与甚至部分完成“训练 AI”的流程,包括选择数据、设计反馈信号、构建训练/评估 pipeline。long horizon 则指模型在很长任务中保持目标、状态和上下文一致。

来源:视频画面时间区间:02:51:43–02:52:15。该帧来自 Gemini 工作重心讨论中段。
读图:long horizon 章节的关键不是画面,而是任务结构
这张帧对应 ML coding 与 long horizon 的讨论。读者应把注意力放在后面的表格:状态压缩、任务分解、环境反馈、记忆/检索。图像提供可追溯时间点,表格才提供概念拆解。
train with finite, use as infinite
访谈中的一句关键口号是:用有限 context 训练,但在使用时接近无限。它不一定意味着单次训练样本无限变长,而是让模型在有限上下文中学会压缩、选择、遗忘、检索和延续,从而完成远超训练窗口长度的任务。
long horizon 的技术问题
长程任务的难点不只是上下文长度。真正的问题包括:哪些信息该保留,哪些信息该丢弃,如何从过去状态恢复目标,如何避免早期错误滚雪球,如何把长期任务拆成可验证子任务,以及如何评估“坚持目标”而不是只评估单步答案。
| 问题 | 机制 | 失败模式 |
|---|---|---|
| 状态压缩 | 把历史交互摘要成可用记忆 | 丢掉关键约束,导致后续偏航。 |
| 任务分解 | 把长期目标拆成短期可验证步骤 | 子任务正确但总体目标错误。 |
| 环境反馈 | 用运行结果、测试、用户反馈修正行为 | 反馈稀疏或噪声大,模型学错。 |
| 记忆/检索 | 从外部存储取回相关信息 | 检索到相似但错误的信息。 |
ML coding:让 AI 训练 AI
姚顺宇提到的 ML coding,不只是让模型写普通业务代码,而是让模型参与训练系统本身。它要处理数据选择、反馈信号、训练基础设施、实验记录、评估和 failure analysis。这个方向如果做成,会改变研究员的工作方式:研究员从手写所有实验逻辑,转向设计目标、约束、检查和评估。
AI 自训练不是自动驾驶研究所
让 AI 参与训练 AI,并不等于完全放手。姚顺宇后面提到的面试题也说明:如果候选人全盘交给 AI,却不能解释 AI 做了什么,讨论环节会露馅。未来研究员的价值在于与 AI 协作、理解产物、校验结果,而不是盲目信任输出。
本章小结
Gemini 章节的核心是两个方向:ML coding 和 long horizon。前者让 AI 参与模型训练流程,后者让模型在长任务中保持目标和状态。二者共同指向更自主的 AI 工作流,但都依赖精细的数据、反馈和评估设计。
组织、产品与中美差异
访谈后半段从技术转向组织和产品。姚顺宇对 neo lab 潮流并不乐观,认为大多数都会死,除非有真正好的人和清晰方向。谈到中国与美国的产品差异时,他认为美国过去十年更擅长 ToB、enterprise 和效率软件,因为这些市场直接且利润高;中国更擅长复杂 C 端产品,把广告、直播、电商、内容和分发转成隐性的利润飞轮。

来源:视频画面时间区间:03:12:57–03:13:28。该帧来自组织与产品讨论中段。
neo lab 的机会与死亡率
很多从模型大厂出来的团队会成立新实验室,但姚顺宇认为多数 neo lab 会死。原因是语言模型主线已经不是蓝海,基础设施、算力、人才、数据、评估、产品入口都越来越集中。除非团队在新方向上有真正差异化,否则很难与大模型公司竞争。
为什么“语言模型末班车已发车”
这句话不是说 AI 没机会,而是说最核心的语言模型主战场已经高度资本化、组织化和基础设施化。年轻研究者更适合寻找尚未被做好的方向,例如多模态生成、机器人、科学 AI、量子调控、长程 agent 等。
TPU 与 GPU 的组织含义
访谈里有一段硬件讨论:GPU 的优势在生态和小规模通用性,典型节点内 NVLink 互连很强;TPU 则更像为大规模集群设计,采用 3D Torus 等拓扑。如果 compiler 和 sharding 策略足够好,可以利用更大规模的结构。这里的 sharding 指把参数、激活、优化器状态或数据切分到多张加速卡上,使它们不必在每张卡完整复制;它既是内存策略,也是通信策略。这里的关键不是哪个硬件绝对更好,而是硬件形态会影响软件栈、组织能力和训练策略。
| 硬件路线 | 优势 | 代价 |
|---|---|---|
| GPU | 生态成熟,通用性强,小规模易用;节点内高速互联 | 大规模成本高,供应链和集群调度压力大。 |
| TPU | 为大规模训练优化,拓扑可扩展,Google 内部软件栈深度配合 | 通用生态弱,更依赖 compiler、sharding 和内部基础设施。 |
硬件不是孤立变量
TPU/GPU 选择背后是组织能力选择:谁能写 compiler,谁能设计 sharding,谁能调度大集群,谁能把模型、数据和硬件一起优化。硬件优势必须通过软件栈和组织执行释放。
本章小结
组织与产品讨论把技术竞争放回现实:模型公司不是论文团队,而是基础设施、产品、组织、市场和人才系统。neo lab 的生存、C 端产品的复杂度、硬件路线的选择,都取决于这种系统能力。
“AI 本质是简单的”:靠谱、细致与负责
姚顺宇在访谈中有一个很有争议但值得认真理解的判断:AI 这件事“不太需要脑子”,最重要的素质是靠谱、做事细、对自己做的事负责。这不是说 AI 没有难题,而是说当前大模型训练中的许多工作不是靠孤立灵感,而是靠把大量细节做对。

来源:视频画面时间区间:03:36:16–03:36:48。该帧来自结尾关于行业素质和集体主义的讨论。
读图:结尾帧与论证边界
结尾帧对应“个人英雄主义之后”的口头判断。它支持的是来源定位,不支持统计意义上的行业结论;行业判断仍需结合组织、硬件、产品和训练系统的多段论述。
24 小时强化学习面试题
他举了一个面试题:让候选人在 24 小时内从 0 到 1 完成一个强化学习项目,可以使用 AI。这个题不再考“你能不能手写所有代码”,而是考三件事:能不能有效利用 AI,能不能理解 AI 生成的系统,能不能在讨论中解释设计选择和失败原因。
未来研究员的核心能力
未来研究员不一定是写最多代码的人,而是能定义问题、调度 AI、理解产物、检查细节、承担结果的人。AI 降低了实现门槛,但提高了验证和责任门槛。
个人英雄主义之后
姚顺宇说,自己进入 AI 行业时,个人英雄主义时代已经结束了。这并不是否认历史上的英雄人物:Hinton、Transformer 论文团队等都曾起到关键作用。但今天的大模型系统太大,数据、算力、训练、后训练、产品、安全、基础设施全部耦合,单个英雄很难独立完成系统性突破。真正的英雄更可能是“英雄集体”。
集体主义不是平均主义
这里的集体主义不是说个人不重要,而是说重要个人必须嵌入组织系统。技术领导者仍然关键,但他的价值在于能下场救火、理解别人工作、容纳不同专业,并把组织运行成一个能持续解决问题的系统。
“不需要脑子”容易被误读
这句话不是反智,而是反对把 AI 神秘化。许多工作确实是本科生也能做的工程与实验,但难在长期可靠、细致、负责地做对,并在复杂系统里理解因果关系。聪明不是不重要,而是不再足够。
本章小结
结尾的核心判断是:AI 行业进入系统工程时代。个人灵感仍有价值,但不能替代组织执行、工程细节和责任感。最稀缺的人,未必是最会讲宏大概念的人,而是能把模糊目标变成可验证系统的人。
总结与延伸
speaker closing:从英雄到系统
访谈的最后,姚顺宇谈到自己没有太多 AI 行业内的偶像,因为他进入这个行业时,个人英雄主义时代已经过去。他承认早期 AI 和物理中都有英雄人物,例如 Hinton 或 Transformer 团队,但今天的前沿 AI 更像集体主义工程。一个人可以发起方向、推动产品、修正路线,但真正的模型进步需要数据、算力、训练系统、评估、产品和组织共同配合。
本笔记的核心提炼
- 模型能力没有简单停滞,预训练是否到头不能只看公开 benchmark。
- 前沿模型差异正在从“能力高低”转向“行为定义、数据构造和产品体验”。
- Coding 爆发的关键不是代码补全,而是长程 agent 工作流。
- 蒸馏的价值取决于训练信号设计;硬蒸只是低级复制。
- Anthropic 的启示是 top-down 技术组织与产品化协同;Gemini 的启示是大规模横向资源和 long-horizon 方向。
- 未来研究员需要会用 AI,但更要理解 AI 产物、检查细节并承担责任。
- AI 的下一个蓝海未必是语言模型主线,而可能在机器人、多模态、科学 AI、长程任务和新产品交互中。
拓展阅读
- OpenAI scaling laws 与 Chinchilla scaling laws:理解“预训练是否到头”的两类历史背景。
- SWE-bench 与 agentic coding 评估:理解 coding benchmark 为什么会接近饱和但产品体验仍有差异。
- Transformer、seq2seq、scaling law、tool use agent 相关论文:理解访谈中提到的影响 AI 进程的关键技术脉络。
最后的判断
这期访谈最值得带走的一句话,不是“AI 不需要脑子”,而是“AI 需要靠谱、细致和负责”。当模型能力越来越强,实现变得更容易,真正的稀缺能力会转向定义问题、验证系统、组织协作和承担结果。