姚顺宇访谈：在 Anthropic 与 Gemini 训练模型，个人英雄主义之后

LaTeX 源码 · 观看视频

字段	内容
作者/整理	基于 Zhang Xiaojun Podcast 公开视频、字幕与原视频画面整理
来源	Zhang Xiaojun Podcast
日期	2026-05-12

导读：这不是一场模型发布会，而是一张 2026 年 AI 研究的横截面

这期访谈的主角是姚顺宇：清华物理本科、斯坦福理论物理博士，短暂进入 Berkeley 做博士后后转向 AI，先后在 Anthropic 与 Google DeepMind 做前沿模型训练工作。访谈题目虽然带着人物故事色彩，但真正有价值的部分，是它把 2026 年初模型实验室内部的一组问题串了起来：模型能力是否同质化、预训练是否到头、coding 与 long-horizon agent 为什么突然爆发、蒸馏的边界在哪里、Anthropic 与 Gemini 的组织差异，以及为什么姚顺宇认为 AI 时代已经不再是个人英雄主义的时代。

本笔记的阅读方式

本笔记不是逐字转写，而是把 3 小时 48 分钟访谈压缩成一份结构化技术笔记。每一章都保留访谈中的核心判断，并补充必要背景：benchmark、scaling law、agentic coding、distillation、long horizon、TPU/GPU 拓扑、组织设计等。人物经历部分服务于理解研究品味和选择，不会展开成传记。

开场介绍：两位同名的姚顺宇/姚顺雨，以及本期嘉宾从理论物理转入 AI 的履历。

来源：视频画面时间区间：00:04:12–00:04:40。画面本身是访谈场景，教学价值在于定位人物与问题背景。

读图：封面与人物帧的作用

本期不是幻灯片课程，视频画面主要提供语境证据：谁在说、在哪一段说、讨论对象是否已经切换。读者不应从人物画面本身推断技术结论，而应把它当作章节锚点，技术判断来自字幕、章节和上下文整理。

访谈主线

访谈从“两个姚顺宇”的身份辨析开始，迅速进入 AI 行业判断：三大模型实验室在纸面 benchmark 上接近之后，差异转向问题定义、数据构造、产品形态和组织执行。随后，姚顺宇用自己的物理训练经历解释为什么他偏好困难问题、为什么重视实验验证，最后落到组织与集体主义：现代大模型已经太复杂，单个英雄很难独立推动系统级跃迁。

章节地图

时间段	原视频章节	本笔记处理重点
00:00–00:07	两个 Shunyu Yao	嘉宾履历、物理转 AI、两位同名研究者的差异
00:07–00:25	竞争与逃逸	benchmark 同质化、模型差异从能力转向行为定义
00:25–00:35	Pre-train 没有到头	scaling law、数据墙、预训练学习能力
00:35–00:54	Coding 的爆发	agentic coding、长程任务、产品 wrapper 与模型壁垒
00:54–01:08	蒸馏与机器人	硬蒸/软蒸、资源劣势下的中国模型策略、机器人机会
01:08–01:52	物理经历	非厄米系统、高能物理、物理训练对 AI 实验观的影响
01:52–02:41	Anthropic	Claude 训练、top-down 机制、产品化与 Claude Code
02:41–03:01	Gemini	ML coding、long horizon、有限训练与近似无限使用
03:01–03:48	预测、组织、集体主义	neo lab、C 端产品、TPU/GPU、AI 研究员素质、个人英雄主义之后

本章小结

本期访谈最重要的信号不是“某家公司更强”，而是前沿模型训练已经进入一个更难外部观察的阶段：公开指标差距缩小，真实差异藏在数据、评估、行为定义、工具使用、长期任务和组织执行里。理解这期访谈，关键是把它当作“AI 工程组织如何在高不确定性下做 bet”的案例。

从 benchmark 竞争到问题定义竞争

姚顺宇认为，2026 年初的前沿模型格局已经不再是简单的“谁追不上谁”。Gemini、OpenAI、Anthropic 这几家在公开 benchmark 上的差距明显收窄，SWE-bench、AIME、IMO 等指标仍有参考价值，但很多时候一两个百分点已经接近噪音，而不是稳定信号。模型的真实差异更多体现在用户体验：Claude 在通用工具使用和 agent 上仍然强，Codex 在纯 coding 方向缩小差距，Gemini 在纯 reasoning 和日常使用上有优势，但这些差异不一定能被单一公开分数捕获。

谈到模型实验室竞争时，访谈把“纸面 benchmark”与“真实用户体验”区分开来。

来源：视频画面时间区间：00:16:20–00:16:55。本图用于标记讨论 benchmark 同质化的上下文。

读图：benchmark 讨论应看什么

这张图没有曲线或表格，重点是把读者带回访谈现场：这一段正在从公司竞争切到评估方法。真正要比较的是三层信息：公开榜单、内部评估、真实用户体验；画面只证明该论述来自原视频对应区间。

核心判断：差异从“能不能做”转向“要它怎么做”

早期模型差异常表现为能力差异：谁更会推理、谁更会写代码、谁更会调用工具。当前前沿模型接近后，难点转向定义目标行为：什么才算好 agent，什么才算好 coding assistant，什么样的 long-horizon 行为值得优化。也就是说，竞争对象从单纯模型能力转向任务定义、数据构造、评估体系和产品反馈闭环。

术语消化：公开指标为何会失真

术语	解决的问题	访谈中的含义
SWE-bench	衡量模型修复真实软件 issue 的能力	当前强模型已接近高分区，一两个百分点差异未必代表真实产品体验差异。
AIME / IMO	数学推理 benchmark	能显示 reasoning 能力，但不能直接说明模型在工具使用、产品协作、长期任务中的表现。
Noise vs Signal	区分随机波动与稳定趋势	姚顺宇强调，公开榜单接近时，小差距更可能是噪音；要看内部评估和真实使用。
Behavior Definition	明确模型应当表现出的行为	当前核心难点：不是“模型会不会”，而是“应该怎样做才算对”。

不要把榜单分数当成完整能力画像

榜单通常压缩了任务、数据分布、评分规则和失败模式。当前模型实验室的竞争越来越像“高维行为优化”：同样 80% 的 SWE-bench 分数，可能对应完全不同的交互体验、工具调用策略、失败恢复能力和用户信任感。

为什么意愿曾经决定能力差异

访谈中反复出现一个词：意愿。姚顺宇说，过去模型能力差异很大程度来自公司愿不愿意把资源投向某类能力。Claude 长期重视 tool use 和 coding，OpenAI 一段时间重视 reasoning，这些选择都会影响 infra、数据、评估和训练管线。前沿模型训练不是只靠一个算法想法，而是靠持续投入把行为目标变成可训练的数据和可追踪的指标。

数据不是中性资源

姚顺宇举了一个很有意思的例子：早期模型写代码好，部分原因可能不是大家预先设计了多么高级的 coding pipeline，而是互联网中的 GitHub 数据天然比普通网页质量更高。也就是说，模型行为有时来自数据分布中的隐性偏置；研究者事后才理解“为什么它学会了这个”。

本章小结

模型竞争进入新阶段后，公开 benchmark 仍重要，但不再足以解释全部差异。前沿实验室真正竞争的是：谁能更好地定义任务、构造数据、搭建评估，并把这些转化成稳定的模型行为。

“Pre-train 没有到头”：scaling law 与数据墙

当主持人问模型进步速度是否放缓时，姚顺宇明确回答“完全没有”。他的理由不是某个 benchmark 还在涨，而是作为研究员的体感：模型学习东西的能力变强了。以前让模型学会某件事需要很多技巧，现在更重要的是把问题定义清楚、构建合适数据和环境，剩下很多事情会“顺其自然”。

“Pre-train 没有到头”章节：访谈把模型进步放缓与 benchmark 饱和分开讨论。

来源：视频画面时间区间：00:30:10–00:30:38。该帧来自预训练章节中段，用于定位讨论场景。

读图：预训练章节的视觉证据

画面仍是双人访谈，说明这里没有官方幻灯片或公式板书。阅读时应把“Pre-train 没有到头”理解为口头判断，需要结合后文的 scaling law、数据墙和用户体验讨论，而不是把单帧画面当作实验证据。

核心判断：benchmark 饱和不等于能力增长停止

如果指标上限是 100%，越接近上限，月度增长自然变慢。但用户体验的增长不一定线性对应 benchmark 分数。从 70% 到 75% 可能比从 50% 到 60% 更有体感，也可能在某些任务上没有体感。真正的问题是：模型是否仍能通过更好的预训练、数据和环境获得新的泛化能力。

scaling law 的三种“到头”含义

姚顺宇把“预训练到头”的可能原因拆成几类。第一，规律本身可能有适用范围，无法无限延展。第二，规律需要的某个条件无法满足，例如高质量数据不够。第三，外部观察者可能只看到某类指标饱和，却误以为底层学习能力饱和。

“到头”说法	真实含义	应如何验证
规律适用范围到头	scaling law 不再外推	需要跨规模实验，而不是单点 benchmark 观察。
数据墙	高质量数据无法继续扩展	要看数据治理、合成数据、环境数据、交互数据能否补足。
指标饱和	某个公开测试接近上限	要换更难、更真实、更贴近产品的评估。
体验边际下降	用户不再感到显著提升	要分析任务分布，而不是只看平均分。

预训练在这里不只是“继续喂文本”

访谈中的 pre-training 指向更宽泛的底座学习能力。它包括模型从大规模数据中学到世界知识、代码结构、语言模式、任务先验和抽象能力。后训练、工具使用、强化学习和环境数据会改变模型行为，但底座的学习能力仍决定了很多上限。

“数据墙”不是一句口号

说数据撞墙，至少要回答三件事：哪类数据撞墙，质量定义是什么，替代数据或环境反馈是否真的不可用。姚顺宇的态度是：未来几个月看不到预训练到头的迹象，但这不等于 scaling law 可以无限外推。

本章小结

预训练是否到头，不能只看公开榜单。姚顺宇的判断强调“模型学习能力”仍在增强，而下一阶段更依赖问题定义、数据构造和环境设计。scaling law 的争论本质上是对可扩展资源、数据质量和评估边界的争论。

Coding 的爆发：从写代码到长程代理

访谈中最密集的技术讨论之一，是 coding 与 agentic workflow 的爆发。姚顺宇认为，OpenClaw 一类产品在技术上并不令人惊讶，因为相关能力在更早的 Claude/Opus 阶段已经可以展示；它真正的价值是让更多人意识到：可以让模型控制多个工具、调用多个模型、聚合结果，并完成很长的 long-horizon 任务。

Coding 爆发章节：讨论 OpenClaw、Manus、agentic coding 与模型能力自然外溢。

来源：视频画面时间区间：00:42:57–00:43:25。该帧对应 coding 产品形态讨论的中段。

读图：coding 爆发的证据类型

本节图像用于时间定位，不展示 OpenClaw 或 Manus 的界面。有效证据来自访谈中的因果链：模型工具使用能力已经具备、产品把可能性展示出来、长程任务共识被触发。不要把人物帧误读为产品截图。

从代码补全到 long-horizon agent

早期 coding 模型主要生成一段代码；agentic coding 则要求模型理解代码库、规划多步修改、运行测试、解释错误、回滚或修复，并在长时间上下文中保持目标一致。能力差异不只在“会不会写函数”，而在工具调用、状态管理、错误恢复和任务收敛。

Manus、OpenClaw 与 wrapper 的壁垒问题

姚顺宇没有把 Manus 与 OpenClaw 的差异解释成清晰的技术代际。他更关注一个商业问题：如果 wrapper 没有自己的模型壁垒，长期生存会很难。当前很多壁垒仍在模型侧；产品侧是否能形成数据飞轮，还没有被证明。除了 agentic coding，他认为真正 AI-native 且已成功的场景并不多。

什么是 AI-native 场景

AI-native 场景不是“把 AI 加到旧产品里”，而是任务形态本身因为模型能力而改变。Chatbot 可看作搜索的交互式扩展；agentic coding 则更接近新形态，因为它把写代码、运行环境、调试、测试和项目管理连成一条工作流。

产品经理为什么暂时难被替代

访谈中对 Claude Code、Cowork 等产品的讨论，指向一个重要判断：AI 产品经理的价值不再只是按钮摆放和 feature 排序，而是理解“人如何与 AI 协作”。好的产品形态会改变交互方式，就像短视频改变内容消费，Claude Code 改变软件工程入口。

不要把 wrapper 一概看低

“wrapper 没有壁垒”是市场常见说法，但并不意味着所有 wrapper 都无价值。真正的问题是：它能否形成工作流锁定、数据反馈、用户习惯、团队执行和模型侧深度集成。没有这些，wrapper 容易被模型公司吸收；有这些，就可能变成新入口。

本章小结

Coding 的爆发不是单点模型能力提升，而是模型能力、工具链、评估、环境和产品形态共同成熟的结果。OpenClaw/Manus 的讨论说明：产品展示可能比技术突破更早触发大众共识，但长期壁垒仍取决于模型、数据和工作流闭环。

蒸馏、资源劣势与中国模型公司的机会

谈到中美模型差距时，姚顺宇认为过去一年到一年半 gap 在缩小，但能否完全弥合甚至反超仍不确定。他特别提到，中国模型公司在算力资源上处于劣势，这种劣势可能逼出一些有趣策略，其中之一就是 distillation。

蒸馏章节：讨论“硬蒸”和更聪明的蒸馏方式。

来源：视频画面时间区间：00:59:30–01:00:00。该帧对应硬蒸/软蒸的讨论场景。

读图：蒸馏段落如何使用画面

画面只能说明时间来源，不能说明蒸馏方法细节。蒸馏的技术信息需要读相邻表格：硬蒸、软蒸、环境蒸馏和自我蒸馏的区别在训练信号，而不是在视觉元素。

硬蒸与软蒸

姚顺宇把蒸馏分成粗糙的“硬蒸”和更有科学含量的蒸馏。硬蒸就是直接拿大模型生成 token 强行训练，既有商业伦理问题，也显得智力上贫乏，因为它说明团队不知道自己真正想优化什么。更聪明的蒸馏则可能围绕能力迁移、偏好学习、数据生成、任务定义展开：不是抄答案，而是用强模型帮助构造更好的训练信号。

类型	做法	风险/价值
硬蒸	直接收集强模型输出 token 做训练	法务和伦理风险高；容易学表面答案，缺少行为目标。
软蒸	利用强模型辅助生成任务、反馈、解释或偏好信号	更接近科学问题：如何把能力、过程和评估迁移到弱模型。
环境蒸馏	让模型在任务环境中产生轨迹，再筛选/评分	对 agent/coding 更有价值，但基础设施复杂。
自我蒸馏	用模型自身或同族模型迭代提升数据	可能形成闭环，也可能放大错误和模式崩塌。

蒸馏的本质不是复制答案，而是设计训练信号

如果不知道自己要什么，蒸馏会退化成抄输出；如果清楚目标行为，蒸馏可以变成数据工程和能力迁移工具。两者差异在于：是否有明确任务定义、评估标准和失败分析。

机器人为什么仍有机会

访谈中，姚顺宇对机器人实验室表达了比语言模型更强的兴趣，因为机器人仍有许多没有被做好的问题。语言模型已经不是蓝海；真正年轻的人如果想找机会，未必应该追逐最热方向，而应该找“没人做到好”的方向。机器人、多模态生成、量子调控等都可能是更蓝海的空间。

资源劣势可能改变研究品味

当算力不能无限堆，团队会被迫重视效率、蒸馏、数据选择、训练信号和产品落地。资源劣势不是优势本身，但可能促使不同路径出现。中国模型公司的机会，可能正来自这种路径差异。

本章小结

蒸馏不是一个简单的“偷不偷”问题，而是训练信号设计问题。硬蒸风险高且暴露目标缺失；软蒸和环境蒸馏则可能成为资源受限团队提升能力的重要路线。

物理训练如何塑造 AI 研究品味

姚顺宇的物理经历不是访谈的花絮，而是理解他研究判断的重要背景。他本科做凝聚态理论，后来做理论高能、量子信息与黑洞相关方向。谈到非厄米系统时，他强调本科时期的研究和现在做 AI 有相似性：先有一个理解或想法，再设计数值实验验证，最后把想法落实成 pipeline。

物理经历章节：从凝聚态、非厄米系统到 AI 实验方法。

来源：视频画面时间区间：01:28:25–01:28:55。该帧用于标记物理背景讨论。

非厄米系统的直觉版解释

在普通量子力学里，哈密顿量通常是厄米的，这保证能量本征值是实数，系统演化保持概率守恒。非厄米系统则常用来描述开放系统、耗散、增益、测量或有效动力学。对 AI 笔记读者来说，不必深入物理细节，但要理解它训练出的研究习惯：面对复杂系统时，先构造可检验模型，再用数值实验逼近理解。

从物理到 AI 的迁移

物理训练强调：定义问题、建立简化模型、设计实验、观察异常、修正理论。大模型训练也类似：提出行为假设，设计数据和训练 pipeline，用实验观察 loss、benchmark、用户行为和失败案例，再回到假设。差异在于，AI 系统更工程化、更依赖组织协作。

“挑战不擅长的事”

访谈中，姚顺宇多次说自己喜欢挑战不擅长的事。离开物理并不是因为物理无趣，而是他觉得自己在那个方向已经看到很多比自己聪明的人，也想去挑战一个新领域。这个选择解释了他后来去 Anthropic、再去 Gemini 的动机：不是追求头衔，而是寻找能迫使自己学习新东西的环境。

不要把跨界神话化

从物理转 AI 并不自动意味着“降维打击”。姚顺宇反而多次说 AI 不一定需要最抽象的聪明，而需要靠谱、细致、负责。跨界带来的价值主要是研究品味和实验习惯，而不是天然优越感。

本章小结

物理背景给姚顺宇提供的是一种处理复杂系统的方式：从想法到实验，从实验到理解，再到 pipeline。这个方法迁移到 AI 后，表现为对问题定义、数据构造和实验验证的重视。

Anthropic：top-down 机制、Claude 训练与产品化

在 Anthropic 的经历是访谈中最重要的职业段落。姚顺宇谈到 Anthropic 的独特性：它能实行相对 top-down 的机制，这对其他模型公司很难。原因不只是组织文化，也和技术领导、项目聚焦、产品方向与模型训练之间的耦合有关。

Anthropic 章节：讨论 Claude 训练、组织机制与产品化。

来源：视频画面时间区间：02:14:38–02:15:05。该帧来自 Anthropic 训练经历讨论的中段。

Claude 3.7/4.5 与工具使用能力

访谈涉及 Claude 3.7、4.5 等模型训练，但很多细节因公司保密无法展开。可提炼出的关键点是：Anthropic 对 tool use、coding 和工作流产品化有长期投入，后续 Claude Code、Cowork 等产品把模型能力转成了工作效率入口。

模型能力需要产品出口

如果模型能力不能被产品形态释放，外部用户感知不到；如果产品形态没有模型能力支撑，也难以形成长期壁垒。Anthropic 的案例说明，前沿模型公司需要同时理解训练、评估、工具链和用户工作流。

top-down 为什么难复制

姚顺宇认为，Anthropic 的 top-down 机制很独特，OpenAI 和 Gemini 都不容易照搬。大公司和 startup 的打法不同：startup 需要 make bet，敢押注；大公司资源更多但流程复杂。top-down 的优势是能把方向、资源和执行统一起来，风险是如果判断错，整个组织会一起走偏。

组织类型	优势	风险
Startup	决策快，敢押注，方向统一	资源少，容错率低，壁垒不足时容易被收购或复制。
大公司	资源、算力、人才和基础设施强	流程长，方向多，难以形成一致 bet。
Anthropic 式 top-down	能把模型训练、产品和安全方向集中推进	依赖技术领导判断，错误方向代价高。

产品经理的新角色

访谈对 Claude Code 的讨论很有意思：好的 AI 产品经理不只是传统意义上的 feature 经理，而是懂得如何设计人与 AI 协作的界面。Claude Code 的价值在于，它让模型嵌入真实开发循环：读代码、改代码、跑测试、解释错误、继续迭代。

AI 产品不是“把模型接进去”

AI 产品化的核心是重写交互方式。聊天框是搜索的交互升级；Claude Code 是软件工程循环的交互升级；未来的 Cowork 类产品可能是协作办公的交互升级。产品经理需要理解模型边界、失败模式、上下文管理和用户信任。

本章小结

Anthropic 的案例说明，前沿模型竞争不能只看模型本身。组织能否快速押注、产品能否释放能力、技术领导能否处理训练与工作流之间的耦合，都会影响模型公司的外部表现。

Gemini：ML coding 与 long horizon

加入 Google DeepMind 后，姚顺宇的工作重心转向 ML coding 和 long horizon。ML coding 指向一个更激进的目标：让 AI 参与甚至部分完成“训练 AI”的流程，包括选择数据、设计反馈信号、构建训练/评估 pipeline。long horizon 则指模型在很长任务中保持目标、状态和上下文一致。

Gemini 章节：讨论 ML coding、long horizon 与训练有限但使用近似无限。

来源：视频画面时间区间：02:51:43–02:52:15。该帧来自 Gemini 工作重心讨论中段。

读图：long horizon 章节的关键不是画面，而是任务结构

这张帧对应 ML coding 与 long horizon 的讨论。读者应把注意力放在后面的表格：状态压缩、任务分解、环境反馈、记忆/检索。图像提供可追溯时间点，表格才提供概念拆解。

train with finite, use as infinite

访谈中的一句关键口号是：用有限 context 训练，但在使用时接近无限。它不一定意味着单次训练样本无限变长，而是让模型在有限上下文中学会压缩、选择、遗忘、检索和延续，从而完成远超训练窗口长度的任务。

long horizon 的技术问题

长程任务的难点不只是上下文长度。真正的问题包括：哪些信息该保留，哪些信息该丢弃，如何从过去状态恢复目标，如何避免早期错误滚雪球，如何把长期任务拆成可验证子任务，以及如何评估“坚持目标”而不是只评估单步答案。

问题	机制	失败模式
状态压缩	把历史交互摘要成可用记忆	丢掉关键约束，导致后续偏航。
任务分解	把长期目标拆成短期可验证步骤	子任务正确但总体目标错误。
环境反馈	用运行结果、测试、用户反馈修正行为	反馈稀疏或噪声大，模型学错。
记忆/检索	从外部存储取回相关信息	检索到相似但错误的信息。

ML coding：让 AI 训练 AI

姚顺宇提到的 ML coding，不只是让模型写普通业务代码，而是让模型参与训练系统本身。它要处理数据选择、反馈信号、训练基础设施、实验记录、评估和 failure analysis。这个方向如果做成，会改变研究员的工作方式：研究员从手写所有实验逻辑，转向设计目标、约束、检查和评估。

AI 自训练不是自动驾驶研究所

让 AI 参与训练 AI，并不等于完全放手。姚顺宇后面提到的面试题也说明：如果候选人全盘交给 AI，却不能解释 AI 做了什么，讨论环节会露馅。未来研究员的价值在于与 AI 协作、理解产物、校验结果，而不是盲目信任输出。

本章小结

Gemini 章节的核心是两个方向：ML coding 和 long horizon。前者让 AI 参与模型训练流程，后者让模型在长任务中保持目标和状态。二者共同指向更自主的 AI 工作流，但都依赖精细的数据、反馈和评估设计。

组织、产品与中美差异

访谈后半段从技术转向组织和产品。姚顺宇对 neo lab 潮流并不乐观，认为大多数都会死，除非有真正好的人和清晰方向。谈到中国与美国的产品差异时，他认为美国过去十年更擅长 ToB、enterprise 和效率软件，因为这些市场直接且利润高；中国更擅长复杂 C 端产品，把广告、直播、电商、内容和分发转成隐性的利润飞轮。

组织与产品章节：讨论 neo lab、C 端产品、美国 enterprise 市场和中国复杂产品能力。

来源：视频画面时间区间：03:12:57–03:13:28。该帧来自组织与产品讨论中段。

neo lab 的机会与死亡率

很多从模型大厂出来的团队会成立新实验室，但姚顺宇认为多数 neo lab 会死。原因是语言模型主线已经不是蓝海，基础设施、算力、人才、数据、评估、产品入口都越来越集中。除非团队在新方向上有真正差异化，否则很难与大模型公司竞争。

为什么“语言模型末班车已发车”

这句话不是说 AI 没机会，而是说最核心的语言模型主战场已经高度资本化、组织化和基础设施化。年轻研究者更适合寻找尚未被做好的方向，例如多模态生成、机器人、科学 AI、量子调控、长程 agent 等。

TPU 与 GPU 的组织含义

访谈里有一段硬件讨论：GPU 的优势在生态和小规模通用性，典型节点内 NVLink 互连很强；TPU 则更像为大规模集群设计，采用 3D Torus 等拓扑。如果 compiler 和 sharding 策略足够好，可以利用更大规模的结构。这里的 sharding 指把参数、激活、优化器状态或数据切分到多张加速卡上，使它们不必在每张卡完整复制；它既是内存策略，也是通信策略。这里的关键不是哪个硬件绝对更好，而是硬件形态会影响软件栈、组织能力和训练策略。

硬件路线	优势	代价
GPU	生态成熟，通用性强，小规模易用；节点内高速互联	大规模成本高，供应链和集群调度压力大。
TPU	为大规模训练优化，拓扑可扩展，Google 内部软件栈深度配合	通用生态弱，更依赖 compiler、sharding 和内部基础设施。

硬件不是孤立变量

TPU/GPU 选择背后是组织能力选择：谁能写 compiler，谁能设计 sharding，谁能调度大集群，谁能把模型、数据和硬件一起优化。硬件优势必须通过软件栈和组织执行释放。

本章小结

组织与产品讨论把技术竞争放回现实：模型公司不是论文团队，而是基础设施、产品、组织、市场和人才系统。neo lab 的生存、C 端产品的复杂度、硬件路线的选择，都取决于这种系统能力。

“AI 本质是简单的”：靠谱、细致与负责

姚顺宇在访谈中有一个很有争议但值得认真理解的判断：AI 这件事“不太需要脑子”，最重要的素质是靠谱、做事细、对自己做的事负责。这不是说 AI 没有难题，而是说当前大模型训练中的许多工作不是靠孤立灵感，而是靠把大量细节做对。

结尾章节：讨论 AI 研究员素质、个人英雄主义结束与集体主义胜利。

来源：视频画面时间区间：03:36:16–03:36:48。该帧来自结尾关于行业素质和集体主义的讨论。

读图：结尾帧与论证边界

结尾帧对应“个人英雄主义之后”的口头判断。它支持的是来源定位，不支持统计意义上的行业结论；行业判断仍需结合组织、硬件、产品和训练系统的多段论述。

24 小时强化学习面试题

他举了一个面试题：让候选人在 24 小时内从 0 到 1 完成一个强化学习项目，可以使用 AI。这个题不再考“你能不能手写所有代码”，而是考三件事：能不能有效利用 AI，能不能理解 AI 生成的系统，能不能在讨论中解释设计选择和失败原因。

未来研究员的核心能力

未来研究员不一定是写最多代码的人，而是能定义问题、调度 AI、理解产物、检查细节、承担结果的人。AI 降低了实现门槛，但提高了验证和责任门槛。

个人英雄主义之后

姚顺宇说，自己进入 AI 行业时，个人英雄主义时代已经结束了。这并不是否认历史上的英雄人物：Hinton、Transformer 论文团队等都曾起到关键作用。但今天的大模型系统太大，数据、算力、训练、后训练、产品、安全、基础设施全部耦合，单个英雄很难独立完成系统性突破。真正的英雄更可能是“英雄集体”。

集体主义不是平均主义

这里的集体主义不是说个人不重要，而是说重要个人必须嵌入组织系统。技术领导者仍然关键，但他的价值在于能下场救火、理解别人工作、容纳不同专业，并把组织运行成一个能持续解决问题的系统。

“不需要脑子”容易被误读

这句话不是反智，而是反对把 AI 神秘化。许多工作确实是本科生也能做的工程与实验，但难在长期可靠、细致、负责地做对，并在复杂系统里理解因果关系。聪明不是不重要，而是不再足够。

本章小结

结尾的核心判断是：AI 行业进入系统工程时代。个人灵感仍有价值，但不能替代组织执行、工程细节和责任感。最稀缺的人，未必是最会讲宏大概念的人，而是能把模糊目标变成可验证系统的人。

总结与延伸

speaker closing：从英雄到系统

访谈的最后，姚顺宇谈到自己没有太多 AI 行业内的偶像，因为他进入这个行业时，个人英雄主义时代已经过去。他承认早期 AI 和物理中都有英雄人物，例如 Hinton 或 Transformer 团队，但今天的前沿 AI 更像集体主义工程。一个人可以发起方向、推动产品、修正路线，但真正的模型进步需要数据、算力、训练系统、评估、产品和组织共同配合。

本笔记的核心提炼

模型能力没有简单停滞，预训练是否到头不能只看公开 benchmark。
前沿模型差异正在从“能力高低”转向“行为定义、数据构造和产品体验”。
Coding 爆发的关键不是代码补全，而是长程 agent 工作流。
蒸馏的价值取决于训练信号设计；硬蒸只是低级复制。
Anthropic 的启示是 top-down 技术组织与产品化协同；Gemini 的启示是大规模横向资源和 long-horizon 方向。
未来研究员需要会用 AI，但更要理解 AI 产物、检查细节并承担责任。
AI 的下一个蓝海未必是语言模型主线，而可能在机器人、多模态、科学 AI、长程任务和新产品交互中。

拓展阅读

OpenAI scaling laws 与 Chinchilla scaling laws：理解“预训练是否到头”的两类历史背景。
SWE-bench 与 agentic coding 评估：理解 coding benchmark 为什么会接近饱和但产品体验仍有差异。
Transformer、seq2seq、scaling law、tool use agent 相关论文：理解访谈中提到的影响 AI 进程的关键技术脉络。

最后的判断

这期访谈最值得带走的一句话，不是“AI 不需要脑子”，而是“AI 需要靠谱、细致和负责”。当模型能力越来越强，实现变得更容易，真正的稀缺能力会转向定义问题、验证系统、组织协作和承担结果。