跳转至

圆桌:通往AGI的大模型发展之路

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于公开课程资料整理
来源 阿里云
日期 2024

圆桌:通往AGI的大模型发展之路

引言:过去18个月的加速发展

本圆桌讨论发生在OpenAI O1发布后不久,主持人张鹏邀请三位国内大模型领域的核心探索者——蒋大昕(阶跃星辰)、杨植麟(月之暗面/Kimi)、朱军(清华/生数科技)——共同回顾过去18个月AGI的发展,并展望未来方向。

三位嘉宾一致认为:AGI的发展处于加速状态,不是减速。

数量与质量的双重加速

从一家独大到群雄并起

蒋大昕从数量和质量两个维度总结过去18个月的进展:

数量维度

每个月都有新模型、新产品涌现:OpenAI的Sora(2月)、GPT-4O(5月)、O1(9月);Anthropic的Claude 3到3.5系列;Google的Gemini系列;Meta的Llama系列等。从GPT-4一家独大,到群雄并起、你追我赶。

质量维度:三大标志性突破

  1. GPT-4O:多模态融合的新台阶——将视觉理解(GPT-4V)、视觉生成(DALL-E/Sora)、声音模型(Whisper/Voice Engine)统一在一起。物理世界本身就是多模态的,融合是必然方向。
  2. 特斯拉FSD V12:端到端大模型,从感知信号直接生成控制序列。自动驾驶是从数字世界走向物理世界的标志性场景。
  3. O1:第一次证明语言模型也可以有人脑的慢思考(System 2)能力,这是归纳世界的基础前提。

纵向与横向的双重扩展

杨植麟从两个维度分析:

  • 纵向(智商):竞赛数学从完全不及格到90多分;代码能力击败专业编程选手;上下文长度从4--8K跃升至128K甚至百万级
  • 横向(技能):多模态理解与生成、论文转podcast、视频生成等模态间转化日益成熟

Learning Curve在变陡

朱军补充了一个重要观察:各个领域的learning curve正在变得更陡。例如视频生成从Sora震惊世界到行业追平仅用了半年。核心原因是大家对技术路线的认知和准备已经到位,加上云基础设施的成熟。

本章小结

过去18个月,AGI在数量(模型密度)和质量(标志性突破)上均显著加速。纵向智商持续攀升,横向技能快速扩展,且各领域的追赶速度越来越快。

O1:Scaling Law的新范式

O1的发布是本次圆桌讨论的核心话题。三位嘉宾从不同角度给出了高度一致的积极评价。

System 1 + System 2的统一

蒋大昕的分析

O1的核心意义有二:

  1. 第一次证明语言模型可以拥有System 2能力——不再是直线性思维(System 1),而是能探索不同路径、自我反思、自我纠错,直到找到正确答案
  2. 将模仿学习(预训练)与强化学习结合,使模型同时具备System 1和System 2能力

System 1 vs. System 2

System 1(快思考):GPT-4的思维方式——即使拆解复杂问题为多步,仍是直线性的next-token prediction。

System 2(慢思考):O1的新能力——可以探索多条路径、回溯、纠错,直到找到正确方案。这是归纳世界、解决新问题的基础能力。

RL Scaling:新的Scaling维度

蒋大昕进一步指出,O1带来了一个RL Scaling的新范式:

  • 过去DeepMind的强化学习(AlphaGo/AlphaFold/AlphaGeometry)都是为特定场景设计
  • O1首次在通用性和泛化性上实现了大规模RL Scaling
  • 它还只是开端(preview),但已经展示了一条上限很高的道路

AGI的等级跃迁

朱军的AGI L1–L5分级

  • L1 聊天机器人:ChatGPT时代
  • L2 推理者:O1时代——在特定(Narrow)场景下已实现L2
  • L3 智能体:从数字世界走向物理世界,去交互、去改变
  • L4 创新者:发现新知识、创造新事物
  • L5 组织者:协同组织、高效运转

每一级都有从Narrow到General的跃迁。O1代表着从L1向L2的显著质变。

解决Scaling Wall

杨植麟指出O1提升了AI的上限

从5%到10倍

O1之前,大家担心数据枯竭(数据墙)导致Scaling Law失效。O1证明了通过强化学习可以继续Scaling——从“提升5--10%的生产力”的上限提升到“10倍GDP”的可能性。AI七八十年历史上唯一有效的就是Scaling,O1为Scaling指出了新的维度。

本章小结

O1的意义:(1) 语言模型获得System 2能力;(2) RL Scaling新范式打破数据墙;(3) AGI从L1迈向L2。

泛化挑战:从Narrow到General

Reward Model的定义难题

朱军指出了RL泛化面临的核心挑战:

Reward定义的困境

在数学定理证明和编程中,reward(奖励函数)是明确的——答案对就是对,错就是错。但在自动驾驶、艺术创作、视频生成等开放领域中,“好”和“不好”的界限模糊,每个人的感受不同。如何在这些领域定义reward model,是RL泛化的核心技术难题。

此外,过程监督(process supervision)数据的获取也很困难——需要对思考过程的每一步进行标注,这需要专业人员和高价值数据。

创业公司的机会

杨植麟从创业视角分析了O1范式带来的机会:

新技术变量带来的机会

  • 有一定算力门槛的公司可以在RL算法层面做基础创新,甚至在基础模型上取得突破
  • 算力较少的公司可以通过后训练在特定领域做到最好
  • 有确定方向但不确定路径——对创业公司是好事

本章小结

RL泛化的核心挑战在于开放领域的reward定义和过程监督数据获取。但技术路径已经清晰,结合强大的基座模型,泛化速度将快于上一代RL(AlphaGo时代)。

算力格局的连锁反应

算力三角的重塑

蒋大昕分析了RL范式对“算法-算力-数据”三角的连锁影响:

三个确定性递减的判断

  1. 确定:推理端的算力需求成倍增长(test-time scaling)
  2. 大概率确定:RL训练阶段的算力不比预训练少——Self-play数据理论上没有上限(如训练Strawberry用上万张H100卡训练数月)
  3. 不确定:主模型参数量是否需要继续scale——如果RL起到“放大器”效应,参数scaling的ROI可能重新打正

如果第三点成立

如果RL的放大效应使得参数scaling重新有效,那算力增长回到\(\text{参数量} \times \text{数据量}\)的平方维度——对整个算力基础设施的需求将是爆发式的。

谁会先感受到算力重估

三位嘉宾的判断虽然角度不同,但落点相近:未来的算力压力不会只体现在训练集群,还会沿着芯片、云平台、推理服务、应用公司一路向上传导。也就是说,RL Scaling 带来的不是单点成本上升,而是整个产业链重新计算 ROI。

角色 直接压力 可能的应对方式
基础模型公司 训练和 test-time scaling 同时抬高 GPU 预算 更精细地分配预训练、后训练与推理预算
云基础设施提供方 峰值需求变大,集群调度更复杂 扩充高端卡供给、提升多租户利用率
应用创业公司 调用更强模型时推理成本变高 通过蒸馏、缓存、专用工作流降低单位请求成本
RL Scaling 对产业链不同角色的影响并不相同

圆桌里隐含的一个商业判断

如果推理侧的算力需求先爆发,那么最先受益的未必是拥有最大参数模型的团队,而可能是更擅长把高价推理“包装成高价值服务”的公司。也因此,产品设计、缓存策略、工作流拆分会和模型能力一样重要。

本章小结

算力格局的变化不是简单的“卡更贵了”,而是 RL Scaling 把训练与推理两端都重新推高,并且把压力传导到云、应用和商业模式上。谁能把高算力转成高价值交付,谁就更可能在下一轮竞争中占优。

AGI的演进路线图

模拟世界 \(→\) 探索世界 \(→\) 归纳世界

蒋大昕提出AGI的三阶段演进路线:

三阶段框架

  1. 模拟世界:GPT-4O代表——多模态融合,为物理世界建模
  2. 探索世界:FSD V12代表——端到端控制,从数字走向物理
  3. 归纳世界:O1代表——System 2慢思考,发现规律和知识

过去18个月在三个阶段上都取得了标志性突破。

Scaling的历史视角

杨植麟从AI七八十年的历史中提炼出一个核心结论:

AI历史上唯一有效的就是Scaling

无论是参数量、数据量还是计算量——更大总是更好。O1不只是量变,而是质变:它开辟了新的Scaling维度(RL Scaling),打破了“数据用完了怎么办”的焦虑。更重要的是,Self-play产生的数据理论上没有上限。

本章小结

AGI的演进可以从“模拟-探索-归纳”三阶段理解。Scaling仍是核心引擎,O1开辟了RL Scaling新维度,打破了数据墙的限制。

总结与延伸

本次圆桌讨论在O1刚发布的背景下展开,三位嘉宾从不同维度(创业视角、学术视角、技术视角)对AGI的现状和未来做出了判断。核心共识如下:

  1. 加速而非减速:过去18个月AGI发展在加速,数量和质量双重提升
  2. O1是范式变革:开辟RL Scaling新维度,赋予模型System 2能力,推动AGI从L1迈向L2
  3. 泛化是核心挑战:从Narrow到General需要解决reward定义和过程监督数据问题
  4. 算力需求将爆发:推理端确定增长,训练端大概率增长,参数量可能重新启动Scaling
  5. 创业机会扩大:有确定方向(RL Scaling)但不确定路径,利好创新型团队
  6. 三阶段路线:模拟世界、探索世界、归纳世界——过去18个月在每个阶段都有标志性突破

拓展阅读

  • OpenAI O1技术博客:“Learning to Reason with LLMs”——test-time scaling的开创性工作
  • OpenAI的AGI等级定义(L1--L5)
  • Tesla FSD V12技术分析:端到端自动驾驶大模型
  • AlphaGo \(\rightarrow\) AlphaFold \(\rightarrow\) AlphaGeometry:DeepMind的RL演进路径
  • Kahneman, “Thinking, Fast and Slow”:System 1/System 2理论原著