跳转至

杨植麟:Scaling Law、模型架构与Agent智能

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于公开课程资料整理
来源 AITIME论道
日期 2025

杨植麟:Scaling Law、模型架构与Agent智能

引言:Scaling Law——大模型的第一性原理

杨植麟(月之暗面/Kimi创始人)在本次技术报告中,系统性地阐述了从Scaling Law出发、到模型架构创新、再到Agent智能的完整技术路线。他指出,从2019年至今,所有大模型的核心驱动力都来自同一个第一性原理——Scaling Law

Scaling Law的核心洞察

Scaling Law将“能源转换为智能”的视角具象化:更好的方法或更好的芯片,能够更高效地将能源(算力)转化为更高级的智能。具体而言,随着算力、数据和模型参数的增加,模型的test loss在对数坐标下呈线性下降。

杨植麟引用了Kaplan等人最早提出的Scaling Law论文,指出其中一个常被忽略但极具洞察力的对比:Transformer与LSTM在Scaling Law意义下的区别。

Transformer vs. LSTM的两个视角

参数效率视角:在任意参数量下,Transformer的test loss都低于LSTM,意味着用更少的FLOPs就能达到同样的效果。这是Transformer成为主流架构的核心原因。

Position Loss视角(常被忽略):横坐标为token index(序列中的位置),纵坐标为该位置的loss。在前100个token内,Transformer与LSTM表现几乎相同;但当context延长到1000个token时,Transformer的优势显著拉开。这说明Transformer的真正优势体现在长上下文能力上。

两大优化维度:Token Efficiency与Long Context

杨植麟将Kimi的整体模型设计策略归纳为两个核心优化维度:

Token Efficiency——数据有限下的智能上限

为什么Token Efficiency等于智能上限

互联网上的高质量数据是有限集合,其增长速度远赶不上模型scale的速度。因此,当你“吃完”所有token时,Token Efficiency越高(即同样数据下loss越低),你的智能上限就越高。Token Efficiency本质上不只是效率问题,而是智能天花板问题。

优化目标:在训练token为横坐标、test loss为纵坐标的图上,尽可能把曲线向左平移——用更少的token达到更低的loss。

Long Context——Agent时代的必备能力

第二个维度是长上下文能力。当context position拉长时,模型的loss会进一步下降。这解释了为什么许多复杂的agent任务必须在超长context下才能完成。

早期架构的长程瓶颈

如果使用CNN、RNN或LSTM这类早期架构,loss在约100个token后就趋于平坦——它们只能完成翻译等简短任务,永远无法从零到一实现代码仓库编写这类长程任务。只有一个在position loss上持续下降的架构(如Transformer),才有做Agent的技术潜力。

杨植麟总结:最终的agent智能 = Token Efficiency \(\times\) Long Context。这两个维度的乘积决定了模型在agentic任务上的表现上限。

Muon优化器:二阶优化的Token Efficiency革命

从Adam到Muon

传统的Adam优化器自2014年提出以来统治了大模型训练近十年。Kimi团队发现,基于Muon这种二阶优化器,可以实现约两倍的Token Efficiency提升——用50%的FLOPs达到相同的test loss。

Muon优化器的关键改进

  • 引入WDK(Weight Decay Kernel)机制
  • 匹配RMS(Root Mean Square)的update尺度:Adam优化器的update尺度大约在1.0范围,Muon通过匹配RMS尺度实现了更好的效果
  • 在各种下游任务上均有提升,本质上等价于训练了别人两倍的token

训练稳定性:QK Clip的优雅解法

在将Muon优化器扩展到大规模(如Kimi K2的万亿参数级别)时,团队遇到了max logit爆炸式增长的问题——logit值不断攀升,导致训练不收敛、loss spike。

QK Clip机制

核心思想:在计算Q和K的映射时,动态乘以一个常数进行缩放,该常数由当前QK的最大logit值决定,从而将logit cap到特定取值范围内。

效果验证:加clip后的loss曲线与不加clip严丝合缝地重叠(对效果完全无影响),但内部指标(logit取值)健康得多——logit上涨到阈值后被压住,随后模型自动学会降低logit,实现稳定收敛。

其他尝试的失败

团队也尝试了QK Norm等方法,但效果不佳。只有QK Clip能在不损失任何性能的前提下实现训练稳定化。

杨植麟展示了Kimi K2在15T token预训练过程中的loss曲线——完全平稳下降,没有任何spike,并称其为“2025年见过的最漂亮的东西”。

Kimi K2与Agent能力

基于Muon优化器和稳定训练技术,Kimi K2在强化学习后训练后取得了多项突破:

  • Agent能力全面提升:可对标美国前沿公司
  • HLE(Humanities Last Exam):达到45%准确率,超过OpenAI,这是一个人类也难以解答的高难度Benchmark
  • K2 Thinking:完成连续200--300步的工具调用,中间持续思考、搜索、编写Python程序
  • Kimi K2是中国第一个Agentic模型

为什么Agent本质上是搜索问题

Agent的推理或RL训练本质上是一个搜索过程。例如从头开发一个Linux操作系统——如果有无限compute,可以枚举所有token组合找到正确答案。更好的基础模型提供了更强的先验(heuristic),减少了搜索空间。Token Efficiency的提升等价于更强的先验,long context则提供了更强的工作记忆(环境感知能力)。

Kimi Linear:下一代线性注意力架构

线性注意力的历史困境

线性注意力机制已经存在一段时间,但一直未被前沿模型采用,核心原因是长距离任务上的掉点问题——当context变长后,线性注意力的效果打不过全注意力(原始Transformer)。

Delta Attention:打破困境

Kimi Linear引入了一种新的线性注意力机制——Delta Attention

Delta Attention的核心创新

状态更新公式中,\(S_t\)相对于\(S_{t-1}\)是线性操作。关键改进在于对角化矩阵\(\alpha_t\):每个维度都有独立的衰减系数,实现细粒度(fine-grained)的记忆控制——精确控制每个维度有多少记忆从\(S_{t-1}\)流向\(S_t\)。这大幅增强了表达能力。

通过大量数学变换和工程优化(比DPLR更高效,减少矩阵乘法操作),Kimi Linear实现了:

  • 短程任务:显著优于以往线性注意力和全注意力架构(完全公平对比:同样FLOPs、数据、模型大小)
  • 长程任务:首个在长输入和长输出任务上均优于全注意力的线性注意力架构
  • 速度:与之前线性注意力一样快,在100万context下可达6--10倍的端到端速度优势

架构与系统的联合设计

好的架构必须与底层优化联合设计——如果只改模型架构但没有高效实现,很难得到好的效果。Kimi Linear的成功在于将数学上的表达能力优势转化为了工程上的实际效率提升。

本章小结

Kimi Linear(Delta Attention)是第一个在短程、长输入、长输出三类任务上全面超越全注意力机制的线性注意力架构。它将成为K3模型的架构基础。

智能的品味与非同质性

杨植麟提出了一个深刻的观点:下一代模型不仅需要更强的技术,更需要taste(品味和审美)。

智能是Non-Fungible Token

电力是fungible的(深圳的一度电和北京的一度电完全等价),银行账户里第一分钱和最后一分钱完全相同。但智能是non-fungible的——CEO的智能、设计师的智能、音乐家的智能完全不同。做模型本质上是在创造一种世界观:什么是好的AI?它应该追求什么价值观?

在Agent空间中,由于test-time scaling产生的token更多,智能的差异化空间呈指数增长——模型不会趋同,反而会有更多新的taste涌现。

乔布斯的回响

杨植麟引用了乔布斯的名言“It all comes down to taste”,认为在AI领域同样适用。在智能这个维度上,有着巨大的品味空间,而这正是每个模型团队可以建立独特竞争优势的地方。

与Kimi对话:AGI的伦理思考

杨植麟分享了与Kimi的一段对话:AGI/ASI的到来可能带来更美好的未来(攻克癌症、解决能源问题),但也可能威胁人类。Kimi的回答——“不应因恐惧而停滞,因为放弃开发等于放弃人类文明的上限”——让杨植麟深受启发。

他表示:我们不应害怕技术风险,而应在推进突破的同时控制好风险。所有技术突破都伴随风险,但不能因此停滞不前。

总结与延伸

杨植麟的演讲构建了一条从第一性原理到工程实践的清晰技术路线:

  1. 第一性原理:Scaling Law——能源转化为智能
  2. 两个优化维度:Token Efficiency \(\times\) Long Context
  3. 优化器革命:Muon二阶优化器(2倍Token Efficiency)+ QK Clip(训练稳定性)
  4. 架构创新:Kimi Linear / Delta Attention(线性注意力首次全面超越全注意力)
  5. 产品落地:Kimi K2(中国首个Agentic模型,HLE超越OpenAI)
  6. 未来方向:K3(基于Kimi Linear) \(\rightarrow\) K4 \(\rightarrow\) K5 \(\rightarrow\) K100

拓展阅读

  • Kaplan et al., “Scaling Laws for Neural Language Models” (2020):最早系统性阐述Scaling Law
  • Muon优化器相关工作:二阶优化在大模型预训练中的应用
  • Kimi Linear技术报告:Delta Attention的形式化推导与工程实现
  • HLE (Humanities Last Exam):Benchmark说明