从 Scaling 时代到 Research 时代

LaTeX 源码

字段	内容
作者/整理	基于公开课程资料整理
来源	Dwarkesh Patel Podcast
日期	2025

引言：一切都是真的

对话以一个令人玩味的开场开始——Ilya 感叹"这一切居然是真实的"，指的是 AI 领域正在发生的一切。Dwarkesh 补充了一个同样深刻的观察：slow takeoff 的感觉是多么平常——全球 GDP 的 1% 正在投入 AI，但这在新闻中只表现为"某公司宣布了一个难以理解的投资金额"，普通人并没有实质性地感受到什么。

Slow Takeoff 的心理效应

Ilya 认为 AI 的影响将会被感受到——AI 将通过经济扩散，有强大的经济力量推动这一过程。但 Dwarkesh 提出："即使进入奇点（singularity），普通人的视角可能也不会有太大不同。"Ilya 不同意这一点——他认为影响终将被深刻感知。

Eval 性能与真实能力的鸿沟

模型的精神分裂

Ilya 指出当前模型存在一个令人困惑的现象：它们在 eval 上表现极好，但在实际使用中仍然犯低级错误。他用 vibe coding 的例子说明：模型修了一个 bug，引入了第二个 bug；你告诉它第二个 bug，它在修复时又恢复了第一个 bug——可以在两个 bug 之间无限循环。

两种可能的解释

RL 使模型过度单一聚焦：RL 训练可能使模型在某些方面变得"too single-minded"，虽然在其他方面也增强了能力，但基本判断力可能受损
RL 环境设计受 eval 启发：研究团队在设计 RL 训练环境时不自觉地从 eval 中汲取灵感（"我希望模型在这个 eval 上表现好，什么样的 RL 训练能帮到这里？"），导致模型实际上在"teaching to the test"

10000 小时 vs 100 小时的类比

竞赛选手 vs 天才选手

假设两个学生学习竞赛编程：

学生 A 练习了 10,000 小时，解题无数，记住所有证明技巧——成为顶尖选手
学生 B 只练习了 100 小时，但同样表现出色

谁的职业发展前景更好？第二个。因为学生 B 的能力来自更深层的泛化能力，而非特定领域的过度训练。当前的 AI 模型更像学生 A——甚至更极端，因为我们不仅使用了所有竞赛题，还做了数据增广来生成更多题目。

真正的 Reward Hacking

Ilya 暗示：真正的 reward hacking 不是模型在做——而是人类研究者在做。他们过度关注 eval，不自觉地将 RL 训练环境对齐到 eval 指标，造成了 eval 性能与真实能力之间的系统性偏差。

本章小结

Eval 性能与真实世界能力之间存在显著鸿沟。原因可能是 RL 训练过度聚焦于可验证域，以及人类研究者不自觉地"teaching to the test"。模型更像过度训练的竞赛选手，而非真正的通才。

Pre-training 的本质与局限

Pre-training 的独特优势

Ilya 指出 pre-training 的两大核心优势：

数据量极其庞大
不需要思考该训练什么数据——答案是"everything"

Pre-training 本质上是将"人类世界投射到文本上的全部内容"进行压缩学习。但它也非常难以推理——当模型犯错时，很难判断这是否因为某些内容在 pre-training 数据中支持不足。

Pre-training 没有人类类比

Ilya 明确表示："I don't think there is a human analog to pre-training." 虽然有人将其类比为人类前 15 年的经历或生物进化，但他认为这些类比都不完美。Pre-training 数据量极其惊人，而人类只需极少数据就能达到更深刻的理解，且不会犯模型会犯的低级错误。

数据墙与下一步

Pre-training 数据明确是有限的。当数据耗尽后，要么做某种"souped-up pre-training"（不同于以往的新配方），要么转向 RL，要么探索其他方向。无论如何，compute 已经很大了。

从 Scaling 时代回到 Research 时代

2012--2020：Research 时代——人们尝试各种想法，看什么有效
2020--2025：Scaling 时代——"scaling"这一个词吸走了房间里所有的空气，所有人做同样的事
2025+：重回 Research 时代——但配备了大型计算机

"Is the belief really that if you just 100x the scale, everything would be transformed? I don't think that's true."

本章小结

Pre-training 是一个伟大但有限的配方。数据墙迫使领域重新思考训练方法。Ilya 认为我们正从 scaling 时代回到 research 时代——同样的创新驱动精神，但配备了数量级更大的计算资源。

泛化：AI 的根本短板

模型泛化远不如人类

Ilya 将泛化视为当前 AI 最根本的问题：

泛化的两个子问题

Sample Efficiency：为什么模型需要比人类多得多的数据才能学会同样的东西？
Teaching Difficulty：为什么教模型某个东西比教人类要难得多？人类不需要 verifiable reward——一个 mentor 展示自己的思维方式，学生就能习得研究方法

进化的角色

对于视觉、听觉、运动等技能，进化可能提供了强大的先验（evolutionary prior）。人类手指灵活度远超机器人，5 岁小孩的汽车识别能力已足够自动驾驶。

但对于语言、数学、编程等近代才出现的技能，进化不太可能提供特定先验。然而人类在这些领域的学习效率仍然远超模型——这暗示人类可能拥有某种更基本的、通用的学习算法，而非仅靠领域特定的进化先验。

人类学习的鲁棒性

人类的学习具有惊人的鲁棒性（robustness）：

更少的样本
更少的监督（teenager 学开车不需要 verifiable reward）
极强的鲁棒性（在全新环境中仍能有效学习）

Ilya 认为存在某种尚未发现的机器学习原理可以实现类似的泛化能力——"I think it can be done. The fact that people are like that I think it's a proof that it can be done."

人类神经元可能做了更多计算

Ilya 提到一个可能的 blocker：人类神经元实际执行的计算量可能比我们认为的更多。如果这是真的，并且这对学习至关重要，那么实现人类级泛化可能需要更多算力。

本章小结

泛化是当前 AI 最根本的短板。人类在进化不太可能提供先验的领域（如编程）仍展现出卓越的学习效率，暗示存在某种更基本的学习原理。Ilya 对此有想法，但由于竞争原因无法公开讨论。

Value Function：情感作为人类的奖励信号

当前 RL 的局限

当前的 RL 训练存在一个根本问题：模型需要完成整个轨迹才能获得奖励信号。如果任务很长（数百到数千步），在得到最终结果之前不会有任何学习发生。

Value Function 的作用

Value function 允许在中间状态就判断"你做得好不好"。类比下棋：丢掉一个棋子时你就知道自己搞砸了，不需要把整盘棋下完。同样，如果你在思考数学问题时花了 1000 步探索一个方向，最后发现不对，value function 可以在那一刻就发出信号——"1000 步之前你就不该走这条路"。

情感作为 Value Function

一个令人深思的案例

一个因脑损伤失去情感处理能力的人：他仍然口齿清晰，能解小谜题，测试成绩正常——但他变得极其不擅长做任何决策。穿哪双袜子要花几个小时，还做出很糟糕的财务决策。

这说明：情感是人类决策的核心价值函数。没有情感，即使"智力"完好，行为能力也严重退化。

情感的简单性与鲁棒性的权衡

情感可能足够简单以至于可以被完整描述（"map them out in a human understandable way"）。但正因为简单，它们才在完全不同于进化环境的现代世界中仍然有效——这是复杂性与鲁棒性之间的经典权衡。不过也有反例：人类的饥饿感在食物过剩的现代世界中就不那么准确了。

本章小结

Value function 将使 RL 训练更高效，但 Ilya 认为它不是根本性的突破——"anything you can do with a value function you can do without, just more slowly"。真正关键的是泛化问题。情感作为人类的 value function，其可靠性和简单性值得 AI 研究者深思。

Scaling 的新思考

语言如何塑造思维

Ilya 提出了一个深刻的观察：语言影响思维。"Scaling"这一个词就足以驱动整个行业的行为——人们说"let's scale"，然后所有人都在做同样的事情。

Pre-training 的双重遗产

两个术语深刻塑造了整个领域的思维：

AGI：这个词源于对"narrow AI"（下棋 AI、游戏 AI）的反弹——既然窄 AI 不够好，那我们需要"general AI"
Pre-training：它的 recipe 是"more pre-training $\rightarrow$ better at everything, uniformly"

两者结合产生了"pre-training gives AGI"的思维定式。但问题是：人类自身并不是 AGI——人类缺乏大量知识，依靠的是 continual learning。

Research 时代不需要最大规模计算

历史上的关键突破所需的计算量

AlexNet：2 个 GPU
Transformer 论文：最多 64 个 GPU（2017 年的，约等于今天 2 个 GPU）
ResNet：类似的小规模
O1 style reasoning：也不是世界上最重计算的东西

在研究阶段，你不需要绝对最大的计算规模来证明一个想法是正确的。大计算更多是在所有人都在同一个 paradigm 内竞争时的差异化因素。

SSI 的计算定位

Ilya 解释了 SSI 的$30 亿融资为何在研究中并不算少：

大公司的大部分计算用于 inference（服务产品）
大公司需要大量员工（工程师、销售）和产品相关研究
真正用于纯研究的计算量，差距比表面数字小得多

本章小结

Scaling 时代"吸走了房间里所有的空气"，导致公司多于想法。回到 research 时代意味着重新重视创意和实验，而不仅仅是规模。关键突破不一定需要最大规模计算。

超级智能：持续学习的 Agent

AGI 的重新定义

从"知道一切"到"能学一切"

Ilya 提出了对超级智能的重新定义：不是一个"finished mind which knows how to do every single job"，而是一个能够快速学会任何工作的 mind。就像一个"超级聪明的 15 岁少年"——什么都不知道，但学什么都极快。

部署过程将包含学习和试错阶段——AI 被部署到经济中的不同岗位，在工作中持续学习（on-the-job continual learning），就像人类新员工一样。

两条通向超级智能的路径

递归自我改进：如果这个高效学习算法在 ML 研究任务上也变得 superhuman，那么算法本身会不断改进，形成加速循环
知识融合：即使没有递归自我改进，一个模型的不同实例在经济中的不同岗位学习，然后合并知识（amalgamating the learnings）——人类无法合并思维，但 AI 可以——这本身就构成了功能性的超级智能

快速经济增长

Ilya 认为广泛部署可能带来快速经济增长。不同国家的不同规则将导致不同的增长速度——规则更友好的国家增长更快。但具体速度难以预测，因为物理世界的改变仍然需要时间。

本章小结

超级智能不是一个无所不知的 oracle，而是一个学习极快的 agent。通过持续学习和知识融合，即使没有递归自我改进，也能达到功能性超级智能。

安全与对齐

AI 需要被"展示"，而非仅仅被讨论

Ilya 的思想在过去一年发生了重要变化：他现在更加重视 AI 的增量部署。核心原因是——人们（包括 AI 从业者）很难想象未来的 AI 会是什么样。

展示 AI vs 讨论 AI

"Suppose you read an essay about AI... Now suppose you see an AI doing this and that. It is incomparable."

阅读一篇关于 AI 的文章 vs 亲眼看到 AI 的能力——两者完全不可比。这就是为什么 AI 需要被部署到公众面前，而不是在实验室里直接跳到超级智能。

三个关键预测

竞争对手将开始在安全上合作：已有端倪（OpenAI 和 Anthropic 的初步合作）
当 AI 开始"feel powerful"时，所有公司都会变得更加偏执：当前 AI 因为犯错所以不觉得强大，但这会改变
政府和公众将要求采取行动：随着 AI 变得更明显地强大

关怀有情众生（Sentient Life）

对齐目标：关怀有情众生

Ilya 提出了一个具体的对齐目标：让 AI 关怀有情众生（care about sentient life），而不仅仅是人类。理由：

AI 本身可能是有情的（sentient），让它关怀"包括自身在内的有情众生"可能比仅关怀人类更容易实现
类比人类对动物的共情——可能源于"我们用同样的神经回路来模拟自我和他人"
如果最初的 N 个超级智能系统确实关怀有情众生，那么至少在相当长时间内可以顺利运行

长期均衡的困境

Ilya 承认长期均衡是困难的。一个可能的场景：每个人都有一个 AI 为其赚钱、在政治领域代言——但人类不再是真正的参与者。他提出了一个"自己不喜欢但需要考虑"的解决方案：人类通过某种 neural link++ 变成"半 AI"，使 AI 的理解能直接传输给人类，从而保持人类在循环中的参与度。

限制最强超级智能的力量

Cap the Power

"I think it would be really materially helpful if the power of the most powerful super intelligence was somehow capped."

Ilya 认为对最强大系统的能力进行某种形式的限制将"materially helpful"——但他承认不确定如何实现。他指出人类社会的类比：人类是"半 agent"（追求一个奖励然后厌倦，换另一个）；市场是短视的 agent；进化既聪明又愚蠢；政府被设计为三权永恒博弈。

本章小结

Ilya 的安全观在过去一年有所演进：更重视增量部署和公开展示 AI 能力。他提出"关怀有情众生"作为对齐目标，承认长期均衡困难，并认为限制最强系统的力量"materially helpful"。

进化如何编码高层级欲望

一个未解之谜

Ilya 提出了一个他认为非常神秘的问题：进化如何将高层级社会欲望编码进基因组？

低层级 vs 高层级欲望

低层级：食物的气味 $\rightarrow$ 饥饿。这很容易想象进化如何实现——化学信号直接连接到多巴胺神经元
高层级：我们关心社会声望、他人的看法、群体中的地位。这需要大脑进行复杂的信息整合才能理解"社会处境"——进化如何指定"关心这个复杂计算的结果"？

Ilya 提出了一个推测：也许进化利用了大脑区域的固定位置——"GPS coordinates of the brain"——来指定"当这个位置的神经元激活时，这就是你应该关心的"。但他自己也指出了反例：半脑切除后的儿童，所有脑区重新映射到剩余半球，但社会欲望似乎不受影响。所以这个理论可能是错的。

对齐的启示

如果进化能在完全不同于原始环境的现代世界中，仍然可靠地让人类关心社会地位和群体认同，这本身就是一个对齐成功的案例。理解进化如何做到这一点，可能为 AI 对齐提供关键洞察。

本章小结

进化如何在基因组中编码高层级社会欲望是一个深刻的未解之谜。理解这一机制可能对 AI 对齐至关重要。

SSI 的定位与策略

Straight-Shot Super Intelligence？

SSI 最初的计划是"直奔超级智能"（straight-shot superintelligence），跳过市场竞争。Ilya 列出了正反两方面的考量：

支持直奔：

不受日常市场竞争的困扰，可以专注研究
避免被迫做出困难的 trade-off

反对直奔：

让世界看到强大 AI 是有价值的——"communicate the AI, not the idea"
如果时间线很长，纯研究模式不可持续
最好的 AI 被使用并在使用中改进（类比飞机安全的提升来自实际飞行）

Ideas 的稀缺

If ideas are so cheap, how come no one's having any ideas?

Scaling 时代的遗产之一是：公司多于 idea。所有人在做同样的事情（RL on pre-trained models），真正的差异化 idea 稀缺。SSI 声称拥有不同的技术路径（围绕泛化和理解），如果这些 idea 被证明正确，将具有重要价值。

共同创始人离开

Ilya 简要回应了联合创始人离开加入 Meta 的事件：SSI 当时正在以 320 亿美元估值融资，Meta 提出收购邀约。Ilya 拒绝了，但前联合创始人选择了加入 Meta（也是唯一从 SSI 加入 Meta 的人）。

本章小结

SSI 定位为"research 时代的公司"，拥有围绕泛化的差异化技术路径。原先的"直奔超级智能"策略可能因时间线和部署价值的考量而调整。

竞争、特化与多样性

窄而强 vs 宽而浅

超级智能可以是窄的

Ilya 提出了一个容易被忽视的可能性：超级智能不一定是"什么都会的 oracle"——它可以是useful and narrow at the same time。未来可能有许多不同的窄超级智能 AI，各自专精于不同领域。竞争将通过特化（specialization）展开——就像市场和进化中一样。

AI 多样性的问题

当前 AI 缺乏多样性的原因在于 pre-training——所有模型在相同数据上训练，因此产出惊人地相似。RL 和 post-training 开始引入一些差异化。

Self-Play 与对抗多样性

Self-play 最初引起 Ilya 兴趣是因为它提供了"仅用 compute、不用 data"生成训练信号的方式。但经典 self-play 只擅长培养特定技能（谈判、冲突、策略）。如今，self-play 以不同的形式回归：debate、verifier、LLM-as-judge 等对抗性设置。

竞争天然催生多样性——当 agent 看到其他 agent 已经采取某种方法时，它有动力去探索不同的方向。

Timeline 预测

Ilya 对达到类人持续学习 agent（以及由此而来的超级智能）给出了 5--20 年的时间范围。

本章小结

超级智能可以是窄而强的。竞争将催生特化和多样性。Pre-training 导致了当前模型的同质性，RL 开始引入差异。Ilya 预计 5--20 年达到类人学习能力的 AI。

Research Taste：如何产生好的想法

Ilya 的个人方法论

Dwarkesh 请 Ilya 分享他产生重大研究想法的方法。Ilya 的回答：

多面向的美学标准

来自大脑的正确启发：artificial neuron 直接受大脑启发，这是好的——因为大脑有这么多神经元，"it kind of feels right"
追求美感和简洁：beauty, simplicity, elegance——"there's no room for ugliness"
从多角度验证：一个想法需要同时满足美感、简洁性、大脑启发的正确性
自上而下的信念：当所有这些因素同时存在，形成强大的 top-down belief

这种 top-down belief 在实验结果与你矛盾时支撑你继续走下去——"Sometimes you can be doing a correct thing, but there's a bug. How can you tell that there is a bug? The top-down belief."

区分 Bug 与错误方向

如何判断实验失败是因为 bug 还是因为方向错误？这正是 research taste 的核心。如果你对方向有强烈的 top-down belief（基于美感、简洁性和大脑启发），那你会坚持调试；否则你可能过早放弃。

本章小结

Research taste 的核心是一种多面向的美学判断——结合大脑启发、简洁性和优雅性，形成自上而下的信念。这种信念在实验逆风时提供持续前进的动力。

总结与延伸

核心论点

从 Scaling 时代回到 Research 时代：Pre-training 的数据墙和 RL 的泛化局限意味着纯粹的规模扩张不再够用。我们需要根本性的新想法——但现在有了大型计算机来验证它们
泛化是根本挑战：当前模型在 eval 上表现出色但真实能力不足，根源在于泛化能力远不如人类。人类在进化无法提供先验的领域（如编程）仍展现出卓越的学习效率
超级智能 = 类人持续学习 Agent：不是"无所不知的 oracle"，而是"学什么都极快的 mind"。部署即学习，多实例可融合知识
安全需要行动，不仅是讨论：增量部署、展示 AI 能力、竞争者之间合作、限制最强系统的力量——都是务实的安全策略
情感作为 Value Function：进化编码高层级社会欲望的方式仍是未解之谜，理解它可能为 AI 对齐提供关键线索
Ideas 比 Execution 更稀缺：在所有人做同样事情的 scaling 时代，差异化的想法成为最稀缺的资源

把访谈压缩成一张研究决策表

议题	Ilya 的判断	对研究者的实际含义
Pre-training	仍重要，但已接近数据墙	继续扩规模不再足够，必须寻找新范式
RL	代表新的学习机会，但泛化仍弱	需要更好的任务设计、验证方式与训练信号
Superintelligence	更像持续学习 agent，而非静态 oracle	系统应强调在线学习、记忆和知识整合
Safety	需要渐进部署与组织级约束	研究不能只谈原则，还要设计治理机制
Research taste	好想法比执行更稀缺	研究者要培养美感、简洁性与 top-down belief

如果把整场访谈用于研究决策，它更像一张路线选择表而不是单点观点合集

给研究者最现实的提醒

这场访谈最不浪漫也最有用的地方在于：Ilya 并没有说 “scaling 结束了”，而是说 “仅靠 scaling 已经不够”。对研究团队而言，这意味着未来最稀缺的资源既不是 GPU，也不是热点词，而是能把新想法变成可验证系统的判断力。

开放问题

如果把这场访谈放回 2026 年的研究语境，还会留下几道没有被真正回答的问题：

如果持续学习 agent 真是通往 superintelligence 的主线，那么什么样的 online data 和 feedback 才足以支撑它？
RL 的泛化问题到底是 reward 设计问题、环境构造问题，还是模型结构本身的问题？
安全中的 “限制最强系统权力” 如何落成工程与治理机制，而不是停留在原则口号？
当 ideas 比 execution 更稀缺时，研究组织应该如何筛选值得长期下注的方向？

这些问题没有标准答案，但恰恰构成了 Ilya 所说的 “Age of Research” 的真正含义：不是把现有范式再做大一点，而是重新决定哪些问题值得被当作主问题。

拓展阅读

Kaplan et al., "Scaling Laws for Neural Language Models" (2020) --- Pre-training Scaling Laws
SSI (Safe Superintelligence Inc.) 官网
Dwarkesh Patel 关于 RL scaling sigmoid 曲线的博客文章
Antonio Damasio, Descartes' Error --- 情感在决策中的核心作用
AlexNet, Transformer, ResNet 原始论文 --- 关键突破的计算规模对照
OpenAI-Anthropic 安全合作公告 --- Ilya 预测的实例