圆桌：通往AGI的大模型发展之路

LaTeX 源码

字段	内容
作者/整理	基于公开课程资料整理
来源	阿里云
日期	2024

圆桌：通往AGI的大模型发展之路

引言：过去18个月的加速发展

本圆桌讨论发生在OpenAI O1发布后不久，主持人张鹏邀请三位国内大模型领域的核心探索者——蒋大昕（阶跃星辰）、杨植麟（月之暗面/Kimi）、朱军（清华/生数科技）——共同回顾过去18个月AGI的发展，并展望未来方向。

三位嘉宾一致认为：AGI的发展处于加速状态，不是减速。

数量与质量的双重加速

从一家独大到群雄并起

蒋大昕从数量和质量两个维度总结过去18个月的进展：

数量维度

每个月都有新模型、新产品涌现：OpenAI的Sora（2月）、GPT-4O（5月）、O1（9月）；Anthropic的Claude 3到3.5系列；Google的Gemini系列；Meta的Llama系列等。从GPT-4一家独大，到群雄并起、你追我赶。

质量维度：三大标志性突破

GPT-4O：多模态融合的新台阶——将视觉理解（GPT-4V）、视觉生成（DALL-E/Sora）、声音模型（Whisper/Voice Engine）统一在一起。物理世界本身就是多模态的，融合是必然方向。
特斯拉FSD V12：端到端大模型，从感知信号直接生成控制序列。自动驾驶是从数字世界走向物理世界的标志性场景。
O1：第一次证明语言模型也可以有人脑的慢思考（System 2）能力，这是归纳世界的基础前提。

纵向与横向的双重扩展

杨植麟从两个维度分析：

纵向（智商）：竞赛数学从完全不及格到90多分；代码能力击败专业编程选手；上下文长度从4--8K跃升至128K甚至百万级
横向（技能）：多模态理解与生成、论文转podcast、视频生成等模态间转化日益成熟

Learning Curve在变陡

朱军补充了一个重要观察：各个领域的learning curve正在变得更陡。例如视频生成从Sora震惊世界到行业追平仅用了半年。核心原因是大家对技术路线的认知和准备已经到位，加上云基础设施的成熟。

本章小结

过去18个月，AGI在数量（模型密度）和质量（标志性突破）上均显著加速。纵向智商持续攀升，横向技能快速扩展，且各领域的追赶速度越来越快。

O1：Scaling Law的新范式

O1的发布是本次圆桌讨论的核心话题。三位嘉宾从不同角度给出了高度一致的积极评价。

System 1 + System 2的统一

蒋大昕的分析

O1的核心意义有二：

第一次证明语言模型可以拥有System 2能力——不再是直线性思维（System 1），而是能探索不同路径、自我反思、自我纠错，直到找到正确答案
将模仿学习（预训练）与强化学习结合，使模型同时具备System 1和System 2能力

System 1 vs. System 2

System 1（快思考）：GPT-4的思维方式——即使拆解复杂问题为多步，仍是直线性的next-token prediction。

System 2（慢思考）：O1的新能力——可以探索多条路径、回溯、纠错，直到找到正确方案。这是归纳世界、解决新问题的基础能力。

RL Scaling：新的Scaling维度

蒋大昕进一步指出，O1带来了一个RL Scaling的新范式：

过去DeepMind的强化学习（AlphaGo/AlphaFold/AlphaGeometry）都是为特定场景设计
O1首次在通用性和泛化性上实现了大规模RL Scaling
它还只是开端（preview），但已经展示了一条上限很高的道路

AGI的等级跃迁

朱军的AGI L1–L5分级

L1 聊天机器人：ChatGPT时代
L2 推理者：O1时代——在特定（Narrow）场景下已实现L2
L3 智能体：从数字世界走向物理世界，去交互、去改变
L4 创新者：发现新知识、创造新事物
L5 组织者：协同组织、高效运转

每一级都有从Narrow到General的跃迁。O1代表着从L1向L2的显著质变。

解决Scaling Wall

杨植麟指出O1提升了AI的上限：

从5%到10倍

O1之前，大家担心数据枯竭（数据墙）导致Scaling Law失效。O1证明了通过强化学习可以继续Scaling——从“提升5--10%的生产力”的上限提升到“10倍GDP”的可能性。AI七八十年历史上唯一有效的就是Scaling，O1为Scaling指出了新的维度。

本章小结

O1的意义：(1) 语言模型获得System 2能力；(2) RL Scaling新范式打破数据墙；(3) AGI从L1迈向L2。

泛化挑战：从Narrow到General

Reward Model的定义难题

朱军指出了RL泛化面临的核心挑战：

Reward定义的困境

在数学定理证明和编程中，reward（奖励函数）是明确的——答案对就是对，错就是错。但在自动驾驶、艺术创作、视频生成等开放领域中，“好”和“不好”的界限模糊，每个人的感受不同。如何在这些领域定义reward model，是RL泛化的核心技术难题。

此外，过程监督（process supervision）数据的获取也很困难——需要对思考过程的每一步进行标注，这需要专业人员和高价值数据。

创业公司的机会

杨植麟从创业视角分析了O1范式带来的机会：

新技术变量带来的机会

有一定算力门槛的公司可以在RL算法层面做基础创新，甚至在基础模型上取得突破
算力较少的公司可以通过后训练在特定领域做到最好
有确定方向但不确定路径——对创业公司是好事

本章小结

RL泛化的核心挑战在于开放领域的reward定义和过程监督数据获取。但技术路径已经清晰，结合强大的基座模型，泛化速度将快于上一代RL（AlphaGo时代）。

算力格局的连锁反应

算力三角的重塑

蒋大昕分析了RL范式对“算法-算力-数据”三角的连锁影响：

三个确定性递减的判断

确定：推理端的算力需求成倍增长（test-time scaling）
大概率确定：RL训练阶段的算力不比预训练少——Self-play数据理论上没有上限（如训练Strawberry用上万张H100卡训练数月）
不确定：主模型参数量是否需要继续scale——如果RL起到“放大器”效应，参数scaling的ROI可能重新打正

如果第三点成立

如果RL的放大效应使得参数scaling重新有效，那算力增长回到\(\text{参数量} \times \text{数据量}\)的平方维度——对整个算力基础设施的需求将是爆发式的。

谁会先感受到算力重估

三位嘉宾的判断虽然角度不同，但落点相近：未来的算力压力不会只体现在训练集群，还会沿着芯片、云平台、推理服务、应用公司一路向上传导。也就是说，RL Scaling 带来的不是单点成本上升，而是整个产业链重新计算 ROI。

角色	直接压力	可能的应对方式
基础模型公司	训练和 test-time scaling 同时抬高 GPU 预算	更精细地分配预训练、后训练与推理预算
云基础设施提供方	峰值需求变大，集群调度更复杂	扩充高端卡供给、提升多租户利用率
应用创业公司	调用更强模型时推理成本变高	通过蒸馏、缓存、专用工作流降低单位请求成本

RL Scaling 对产业链不同角色的影响并不相同

圆桌里隐含的一个商业判断

如果推理侧的算力需求先爆发，那么最先受益的未必是拥有最大参数模型的团队，而可能是更擅长把高价推理“包装成高价值服务”的公司。也因此，产品设计、缓存策略、工作流拆分会和模型能力一样重要。

本章小结

算力格局的变化不是简单的“卡更贵了”，而是 RL Scaling 把训练与推理两端都重新推高，并且把压力传导到云、应用和商业模式上。谁能把高算力转成高价值交付，谁就更可能在下一轮竞争中占优。

AGI的演进路线图

模拟世界 \(→\) 探索世界 \(→\) 归纳世界

蒋大昕提出AGI的三阶段演进路线：

三阶段框架

模拟世界：GPT-4O代表——多模态融合，为物理世界建模
探索世界：FSD V12代表——端到端控制，从数字走向物理
归纳世界：O1代表——System 2慢思考，发现规律和知识

过去18个月在三个阶段上都取得了标志性突破。

Scaling的历史视角

杨植麟从AI七八十年的历史中提炼出一个核心结论：

AI历史上唯一有效的就是Scaling

无论是参数量、数据量还是计算量——更大总是更好。O1不只是量变，而是质变：它开辟了新的Scaling维度（RL Scaling），打破了“数据用完了怎么办”的焦虑。更重要的是，Self-play产生的数据理论上没有上限。

本章小结

AGI的演进可以从“模拟-探索-归纳”三阶段理解。Scaling仍是核心引擎，O1开辟了RL Scaling新维度，打破了数据墙的限制。

总结与延伸

本次圆桌讨论在O1刚发布的背景下展开，三位嘉宾从不同维度（创业视角、学术视角、技术视角）对AGI的现状和未来做出了判断。核心共识如下：

加速而非减速：过去18个月AGI发展在加速，数量和质量双重提升
O1是范式变革：开辟RL Scaling新维度，赋予模型System 2能力，推动AGI从L1迈向L2
泛化是核心挑战：从Narrow到General需要解决reward定义和过程监督数据问题
算力需求将爆发：推理端确定增长，训练端大概率增长，参数量可能重新启动Scaling
创业机会扩大：有确定方向（RL Scaling）但不确定路径，利好创新型团队
三阶段路线：模拟世界、探索世界、归纳世界——过去18个月在每个阶段都有标志性突破

拓展阅读

OpenAI O1技术博客：“Learning to Reason with LLMs”——test-time scaling的开创性工作
OpenAI的AGI等级定义（L1--L5）
Tesla FSD V12技术分析：端到端自动驾驶大模型
AlphaGo \(\rightarrow\) AlphaFold \(\rightarrow\) AlphaGeometry：DeepMind的RL演进路径
Kahneman, “Thinking, Fast and Slow”：System 1/System 2理论原著