跳转至

杨植麟访谈:K2 模型、Scaling Law 与 Agent 未来

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于公开课程资料整理
来源 张小珺商业访谈录
日期 2025年7月

杨植麟访谈:K2 模型、Scaling Law 与 Agent 未来

攀登无尽的雪山:AI 创业的心路

从"向延绵而未知的雪山前进"到"Beginning of Infinity"

杨植麟是月之暗面(Moonshot AI)创始人兼 CEO。时隔一年(2025年7月),再次接受访谈时,他用《无穷的开始》(The Beginning of Infinity)的哲学来描述自己的感受:

问题不可避免,但问题可以解决

David Deutsch 在《无穷的开始》中提出两句核心命题:

  1. 问题是不可避免的(Problems are inevitable)
  2. 问题是可以解决的(Problems are soluble)

研发 AI 的过程恰好体现了这一哲学:解决了强化学习的很多问题,就面临评估、验证等新问题;解决了预训练效率问题,又面临 Agent 泛化问题。每次解决一个问题,技术就再攀登几百米,同时看到新的问题。

杨植麟认为,AGI 可能不是某一级台阶,而是一个方向。今天的 AI 在很多领域已经比 99% 的人类做得更好——在某种意义上可以视为部分 AGI。但很难说某个时间点突然达到 AGI,它更像是持续攀登的过程。

雪山可能没有尽头

杨植麟表达了一个乐观的观点:他希望这座雪山一直没有尽头——"所谓的 Beginning of Infinity 就是这个意思,它可能是一座无限的山"。而且到某个阶段,可能不再是人类在爬,而是用 AI 来攀登——比如用 K2 模型来参与模型训练、数据处理相关的工作。AI 正在成为"人类文明的放大器"。

本章小结

AI 创业是一个持续解决问题、又发现新问题的过程。AGI 不是一个终点,而是一个方向。AI 正在从工具演变为研发过程中的参与者。

过去一年全球大模型的范式级变化

第一个范式:强思考的推理模型

以 O1 为代表的基于强化学习的推理模型(Reasoning Model),是过去一年最重要的技术突破之一。

推理模型的本质:猜想-验证循环

推理模型的核心能力是"反思"(Reflection),它本质上包含两种能力:

  1. 提出猜想:在解决问题过程中不断提出新的假设
  2. 自我验证:对每个猜想进行隐式的验证,判断对错

通过多次"猜想→验证→新猜想→再验证"的循环,模型可以将 Pass@2 的问题变成 Pass@1——本质上是等价地尝试了多次。这与人类做科研、解题的过程非常相似。

杨植麟将这种推理模型形象地比喻为"缸中之脑"——它不需要与外界交互,只是在自己的大脑中思考,就能通过猜想-验证循环解决问题。

串行 vs. 并行采样

推理模型的有效工作方式主要是串行的——每次猜想基于前一次的结果。虽然也可以搭配并行策略(同时采样多个方案),但最近的研究表明,串行的上限通常更高。这与月之暗面的实验结论一致。

第二个范式:Agent 强化学习

与推理模型的"缸中之脑"不同,Agent 模型通过多轮交互与外界环境进行互动:

  • 边思考边执行操作(搜索、浏览器、写代码等)
  • 通过多轮方式解决问题
  • 下一步行为取决于外界反馈和状态更新

两种 Test-Time Scaling 的统一

推理模型和 Agent 模型都指向同一个核心概念——Test-Time Scaling

  • 推理模型:Scale 单轮内的思考 Token 数量(更多的内部推理)
  • Agent 模型:Scale 多轮交互的轮次数量(更多的外部交互)

两者都是在推理时投入更多计算资源来完成更复杂的任务。传统对话模型可能只输出几百个 Token,而推理/Agent 模型可以花费数小时、消耗大量 Token 来完成复杂任务。

Claude vs. OpenAI 的技术路线差异

Reasoning 和 Agent 不必然是线性依赖

杨植麟指出一个有趣的观察:Claude 的模型在 Reasoning 基准上表现并不突出,但在 Agent 任务上表现非常好。这说明:

  • Reasoning 和 Agent 对应两种不同的 Test-Time Scaling 维度
  • 两者在研发上不是必然的先后顺序
  • 但要达到 Agent 的最高水平,最终仍需要很强的 Reasoning 能力

Claude 可能更多投入在 Agent(多轮交互)方向,OpenAI 更多投入在 Reasoning(深度思考)方向。不同的技术路径会导致短期产品差异,但长期来看两者都不可或缺。

第三个趋势:模型公司做一方产品

正向设计 vs. 逆向工程

杨植麟区分了两种产品开发方式:

  • 第三方逆向工程:基于现有基础模型,通过设计腳手架、工具、System Prompt 来逆向工程模型的训练过程,找到最佳的使用方式(如 Manus 等)
  • 一方正向设计:模型公司先设计好工具和 Context Engineering 方法,然后在这个环境中训练模型,使模型天然在自己的环境中表现最好(如 Claude Code、ChatGPT Agent)

第二种方式的上限可能更高,因为可以更好地整合工具和模型,端到端地做训练。

本章小结

过去一年的三大范式级变化:(1) 推理模型(缸中之脑式的猜想-验证循环),(2) Agent 模型(与外界多轮交互),(3) 模型公司做一方产品。推理和 Agent 是两种 Test-Time Scaling 维度,最终需要结合。

OpenAI L1-L5 分级的再思考

五个层级的含义

OpenAI 定义了 AI 能力的五个层级:L1 ChatBot → L2 Reasoning → L3 Agent → L4 Innovation → L5 Organization。

层级之间不是线性关系

杨植麟对 L1-L5 的关键洞察:

  1. 这五个层级并不完全是串行的——有些能力是并行发展的
  2. Agent 的上限取决于 Reasoning 能力,但 Agent 不必等 Reasoning 完全成熟才能开始
  3. Innovation 的标志是"模型参与模型开发"——比如 K2 参与 K3 的开发
  4. Organization 的雏形已经出现——Multi-Agent 系统中不同 Agent 承担不同角色

用 L4 的技术解决 L3 的问题

一个有趣的循环依赖:要解决 Agent 泛化问题(L3),可能需要 Innovation(L4)的技术——即用 AI 来训练和对齐 AI。这说明这些层级之间存在复杂的交互关系,而非简单的顺序依赖。

本章小结

L1-L5 是几个重要的技术里程碑,但并非严格的线性关系。Reasoning 和 Agent 是 Innovation 和 Organization 的前提,但它们之间存在复杂的相互依赖。每个层级的能力都会持续提升,没有明确的"封顶"。

K1.5 到 K2:月之暗面的技术演进

K1.5:强化学习技术验证

K1.5 主要是强化学习技术路线的验证——月之暗面是较早在这条路线上投入的团队。关键发现:

端到端 Reward 胜过 Process Reward

K1.5 的重要技术发现:不太需要 Process Reward Model(PRM)或 Value Function。直接使用端到端的 Reward 就可以把训练做得非常好。Process Reward 在训练过程中甚至可能有副作用。这在早期并不是非常明确的结论。

K2:追求更好的基础模型

K2 的设计目标有两个核心方向:

方向一:Token Efficiency——把每份数据的价值最大化

为什么 Token Efficiency 比 Compute Efficiency 更重要

高质量数据的增长非常缓慢——可以近似看作一个常数(如 30T 高质量 Token)。在这个约束下:

  • Compute Efficiency(训练更快):虽然有价值,但不能提升智能上限——你只是更快地训练完同样的数据
  • Token Efficiency(学得更好):同样的数据,模型吸收得更多、压缩率更高、loss 降得更快——直接提升智能上限

月之暗面通过三种方式提升 Token Efficiency:

  1. Muon 优化器:基于矩阵正交化的新优化器,取代使用了 10 年的 Adam。在 Compute Optimal 条件下,Token Efficiency 提升约 2 倍——等于学 1 份数据相当于 Adam 学 2 份
  2. 更大的稀疏度:通过更大的稀疏度加入更多参数,参数越多,同样数据的吸收效果越好
  3. 数据 Rephrase:对高质量数据进行改写,使同一份数据以不同形式被多次学习,提升泛化性

Muon 优化器的技术背景

Muon 优化器由 Keller 提出,核心思想是不把矩阵中的每个参数元素独立考虑(如 Adam 那样),而是考虑参数之间的依赖关系(dependency),通过矩阵正交化的方式实现更高效的学习。

月之暗面的贡献是将 Muon 在大规模语言模型上实际落地。早期通过 Moonlight 项目首次在一定规模的语言模型上验证,后续进一步 Scale 时发现新问题(如 MaxLogit 爆炸),通过提出新的 Clipping 方式解决。

数据改写不等于简单复制

单纯重复学习同一份数据会导致过拟合和泛化问题。改写的关键是引入"新的熵"——使改写后的数据在保留核心知识的同时具有一定的多样性,从而提升泛化能力。但改写方式的选择至关重要,如何引入新的信息熵仍是活跃的研究方向。

方向二:Agentic 能力与泛化

Agent 泛化是当前最大挑战

对于 Agentic 模型,当前最大的挑战是泛化

  • 现有 RL 技术的局限:训练任务和评价指标往往是单点的(如只训练 SWE-Bench)
  • 指标提升不代表泛化提升:SWE-Bench 分数提高,不意味着模型在其他代码任务上也好
  • Agent 的泛化问题比对话模型更严重
  • Benchmark 不够用或已失效

杨植麟认为可能的解法是"用 AI 训练 AI":让模型参与到自身的训练和对齐过程中,用更 AI-Native 的方式提升泛化性。

K2 的研发过程

  • 技术积累从一年前开始(Muon 优化器等技术需要长周期的 Scaling 实验验证)
  • K2 本身的训练周期并不长,但前置的技术准备需要大量时间
  • 遇到的主要挑战:Muon 优化器在大规模训练时出现 MaxLogit 爆炸问题(小规模实验中无法复现)
  • 研究团队和训练团队是同一个团队——因为训练中的问题需要深入理解底层技术才能解决

本章小结

K1.5 验证了端到端 Reward 的强化学习路线。K2 聚焦两个方向:(1) Token Efficiency(Muon 优化器 + 稀疏度 + 数据改写),(2) Agentic 泛化能力。Agent 泛化是当前最大瓶颈,可能需要用 AI 训练 AI 来突破。

Agent 的定义与未来

Agent 的两个核心特征

Agent = 多轮 + 工具

杨植麟对 Agent 的定义简洁而本质:

  1. 多轮(Multi-turn):可以进行多次交互,这是 Test-Time Scaling 的一种方式,使模型能完成复杂任务
  2. 工具(Tool Use):连接大脑与外部世界的方式——搜索引擎连接互联网,代码能力连接数字世界的一切自动化

通用性是 Agent 最缺的能力

从通用 Agent 到垂直应用

如果 Agent 有足够好的泛化能力,就不需要大量的垂直 Agent:

  • 通用 Agent 只需接入不同的工具(定制数据库、定制 API、定制文档接口等),就能完成垂直领域任务
  • 但当前 Agent 最缺的正是这种泛化能力——能否泛化到训练中没有见过的工具和环境
  • Benchmark 过拟合是一个风险:刷几个 Benchmark 的分数,不代表真实场景的泛化能力

Agent 的目的不是模拟人

杨植麟指出一个重要的区分:Agent 的目的是通用(General Purpose),而不是模拟人。人类也是通用的(Universal Constructor),Agent 的行为方式与人类相似只是一个巧合结果——就像飞机的设计目的是交通工具,不是为了像鸟一样飞。

本章小结

Agent 的两个核心特征是多轮交互和工具使用。当前最大挑战是泛化能力——能否在没见过的工具和环境上表现良好。Agent 的目标是通用智能,不是模拟人类行为。

Scaling Law 与模型架构

预训练 Scaling 的新瓶颈

高质量数据接近常数

高质量训练数据的增长速度远慢于算力增长:

  • 高质量文本数据量可以近似看作常数
  • 多模态数据无法有效提升文本的"智商"
  • 这使得 Token Efficiency 成为比 Compute Efficiency 更重要的优化方向

Muon 优化器:突破 Adam 的 10 年统治

Adam 优化器统治了深度学习训练领域近 10 年。Muon 优化器通过考虑参数之间的矩阵结构依赖关系,实现了约 2 倍的 Token Efficiency 提升:

  • Adam:独立考虑每个参数元素,忽略参数间的结构关系
  • Muon:考虑矩阵参数间的 dependency,通过正交化方式优化
  • 效果:30T 高质量 Token 的学习效果等价于 Adam 学习 60T Token

RL Scaling 的发现

强化学习中的 Curriculum 设计

在 Agent 训练中,不能一上来就让模型解决最难的任务(如证明未解数学猜想),否则 Sample Efficiency 极低。更好的方式是:

  • 使用中等难度的任务进行训练
  • 逐步提升难度(爬山过程)
  • 搭配好的 Sampling 策略

这本质上是一个 Curriculum Learning 的过程。

本章小结

预训练 Scaling 的新瓶颈是高质量数据的有限性。Muon 优化器通过矩阵正交化突破 Adam 的 10 年统治,实现 2 倍 Token Efficiency 提升。RL 训练需要 Curriculum 设计来保证 Sample Efficiency。

模型训练的评估困境

Benchmark 失效与 Agent 泛化

Benchmark 过拟合的风险

当前 Agent 领域面临严重的评估问题:

  • 可用的 Agent Benchmark 数量有限
  • 刷高 Benchmark 分数不代表真实能力——很多时候是对特定任务的过拟合
  • 用户在 OOD(Out-of-Distribution)场景的体感与 Benchmark 分数脱节
  • "种瓜得瓜、种豆得豆"——训练什么就提升什么,但泛化有限

评估困境的根源

杨植麟认为,评估困境的根源是:

  1. 强化学习最终依赖于好的评估/验证——数学题和有 Test Case 的编程可以自动验证,但复杂的端到端任务很难找到好的评估方式
  2. 模型能力提升带来的新问题:任务复杂度增加,评估方式需要跟上
  3. Agent 任务的长尾分布特性:难以覆盖所有真实场景

本章小结

Benchmark 失效和 Agent 泛化不足是当前最突出的评估困境。根源在于复杂任务难以自动验证,以及训练分布与真实使用场景之间的 Gap。用 AI 参与评估和训练(AI 训练 AI)可能是突破方向。

一方产品 vs. 第三方生态

两种产品范式

模型公司做一方产品的逻辑

  • 第三方范式:给定一个模型,逆向工程最佳的使用方式(System Prompt、工具设计、Context Engineering),本质是去拟合模型的训练分布
  • 一方范式:先设计好工具和环境,然后在这个环境中训练模型。模型天然在自己的环境中表现最好,无需逆向工程

Cloud Code 和 ChatGPT Agent 都是一方产品的代表。月之暗面目前仍以模型为主线,但认为一方产品将是重要趋势。

本章小结

一方产品通过正向设计环境+训练模型,上限更高;第三方产品通过逆向工程模型使用方式,灵活但受限于模型训练分布。未来两种范式将共存互补。

从 K2 到下一代 Agent:哪些问题最难

Token Efficiency 与系统约束

访谈里一个非常明确的判断是:未来大模型竞争不只是 “谁的 compute 更大”,而是谁能更高效地消化高质量 token。杨植麟把 Muon 优化器、数据改写、合成数据、测试时扩展能力都放在同一张图里,本质上是在回答一个问题:当高质量训练数据越来越稀缺时,怎样让每个 token 产生更高回报。

为什么 Token Efficiency 比表面上的 Compute Efficiency 更关键

  • 真正高价值的数据本来就少,不能指望无限堆数据解决问题;
  • Agent 任务训练代价更高,因为还要支付 rollout、tool use、环境执行和评估成本;
  • 如果 token 利用率不高,即便算力更大,也会在高质量数据瓶颈前停下来。

K2 之后的三道硬门槛

如果把访谈里的判断压成更工程化的表述,K2 之后至少还有三道门槛没有真正跨过去:第一是 Agent 泛化,第二是评估体系,第三是系统级闭环。

门槛 访谈中的判断 为什么难
Agent 泛化 Benchmark 分高不代表真实场景能做对 任务分布长尾,训练分布与实际使用不一致
评估体系 复杂端到端任务缺少自动验证方式 没有稳定 verifier,就很难高质量做 RL
系统闭环 一方产品更容易把环境与训练绑在一起 第三方生态要靠逆向工程拟合模型训练分布
K2 之后真正困难的部分,不是 “会不会做演示”,而是如何稳定扩展到真实任务

最容易被低估的不是模型能力,而是评估成本

访谈里对 Benchmark 的批评非常尖锐:Agent 任务不像数学题或有 test case 的代码任务,很多真实工作没有天然标准答案。没有可靠评估,就无法稳定做强化学习;没有强化学习,就很难把长链路能力内化进模型。这是 Agent 迭代速度慢于外界想象的重要原因。

本章小结

如果说 K2 代表了模型能力的一次向前推进,那么下一阶段真正决定天花板的,将是 token 效率、可靠评估和系统化产品闭环。也正因此,杨植麟在整场访谈里始终把 “模型”、“数据”、“评估”、“产品” 放在同一张图里讨论。

对组织与产品团队的启示

这场访谈对研究团队之外也有直接启发。如果未来一方产品会越来越重要,那么组织形态也会跟着变化:模型团队不能只负责训练,产品团队也不能只负责包一层 UI,双方都需要理解工具环境、评估闭环和用户真实任务。

为什么一方产品路线会倒逼组织重构

  • 做一方产品意味着环境设计、模型训练和产品交互需要同步规划;
  • 如果组织仍按 “模型组”、“产品组” 完全割裂,很多关键反馈无法回流进训练;
  • Agent 产品越深入工作流,越需要把产品 telemetry、失败案例和训练数据打通。

访谈折射出的创业方法论

为什么模型公司不能只做模型

整场访谈虽然围绕 K2、Muon、RL 和 Agent 展开,但杨植麟反复强调的其实是一个更大的判断:模型能力、评估体系和产品环境必须同步演进。如果只把公司理解为 “训练一个更强基础模型”,就会低估后续最困难的环节,因为真正把能力变成用户价值的,是模型外面的系统。

从能力供给到任务闭环,价值链正在后移

  • 预训练和后训练决定模型的能力上限;
  • 评估体系决定这些能力是否能被稳定识别和持续迭代;
  • 产品环境决定模型是否能在真实工作流中把能力兑现出来。

这也是为什么访谈里会同时出现 K2、Agent、Benchmark 和一方产品等话题。它们不是分散的热点,而是同一条价值链上的不同环节。

杨植麟没有把 “产品” 理解为最后包一层聊天界面,而是更接近 “给模型搭一个可以长期学习和执行的环境”。在这种视角下,产品既是分发渠道,也是训练环境的一部分。模型公司如果忽视这一点,很容易在 demo 层面看起来很强,但在真实任务上无法建立复利。

创业公司的节奏与窗口

这场访谈也隐含了一种创业节奏判断:在范式剧烈变化期,团队需要优先抓那些能够形成复利的基础能力,而不是追逐短期热点。无论是 Muon 优化器、Token Efficiency、Agent 泛化,还是评估体系,本质上都在争夺未来几年的技术坡度。

访谈中可以抽象出的三层窗口

  1. 算法窗口:谁能率先找到更高 Token Efficiency、更稳定 RL 和更好的 verifier,谁就能以更低成本扩展能力;
  2. 系统窗口:谁能把工具、环境、记忆和评估接到一起,谁就更容易把模型能力沉淀为产品体验;
  3. 组织窗口:谁能让研究、工程、产品数据形成快反馈回路,谁就更容易持续迭代。

最危险的误判是把短期领先误认为长期壁垒

访谈对 Benchmark 的警惕同样适用于公司判断。短期的演示效果、单点 benchmark 提升,甚至某次产品爆发,都不必然构成长期壁垒。真正的壁垒来自:能否持续吸收高质量数据、能否建立可靠评估、能否把用户任务反哺到训练与产品闭环之中。

“问题是不可避免的,问题也是可以解决的。” 如果把这句话放到创业语境里,它意味着团队不应该期待某个 “终局模型” 一次性解决所有问题,而应该围绕关键瓶颈建立一套持续爬坡的机制。K2 只是其中一个阶段性的高点,而不是路线结束。

本章小结

从这场访谈能够抽象出的创业方法论是:不要把模型、评估和产品分开看,而要把它们视作同一个系统的不同层。未来能赢下长期竞争的,不只是训练出强模型的团队,而是能把强模型持续变成真实任务闭环的团队。

总结与延伸

核心观点梳理

杨植麟访谈的核心要点

  1. AI 是一座无尽的雪山:问题不可避免,但问题可以解决。每解决一个问题就攀登几百米,同时发现新问题
  2. 两种 Test-Time Scaling:推理模型(缸中之脑,Scale 思考 Token)和 Agent(与世界交互,Scale 轮次)
  3. Token Efficiency 比 Compute Efficiency 重要:高质量数据是瓶颈,Muon 优化器实现 2 倍提升
  4. Agent 泛化是最大挑战:Benchmark 过拟合严重,可能需要 AI 训练 AI 来突破
  5. AGI 是方向不是终点:不会有某一刻突然达到 AGI,而是各项能力持续提升
  6. 一方产品趋势:模型公司正向设计环境+训练模型,上限更高

延伸思考

  • AI 的自我改进:当 K2 能参与 K3 的开发时,会形成怎样的加速循环?
  • 评估范式革新:如何设计不会被过拟合的 Agent 评估方法?
  • 数据瓶颈突破:除了改写和合成,还有哪些提升 Token Efficiency 的路径?
  • 通用 Agent 的门槛:Agent 需要多强的泛化能力才能真正替代垂直解决方案?

拓展阅读

  • K2 技术报告(月之暗面官方发布)
  • David Deutsch, The Beginning of Infinity
  • Moonlight: 大规模语言模型上的 Muon 优化器
  • OpenAI L1-L5 分级体系
  • Claude Code 与 ChatGPT Agent 的一方产品设计