跳转至

How We Scaled Kimi K2.5

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于公开课程资料整理
来源 NVIDIA GTC 2026
日期 2026

How We Scaled Kimi K2.5

引言:开放模型的愿景

杨植麟在 GTC 2026 的演讲中阐述了 Moonshot AI(Kimi)在开放模型领域的最新进展。他引用了 Jensen Huang 在 CES 上的一张 slide,指出开放模型正在快速缩小与闭源模型之间的差距,并正在达到前沿水平。

核心理念

开放模型不仅要"开放",更要"出色"(Open models cannot be just open --- they have to be great)。Kimi 团队的目标是让智能通过开源模型触达世界每个角落,同时在性能上与闭源模型竞争。

演讲围绕三个 scaling 维度展开:

  1. Token Efficiency:通过更好的架构和优化器,提升每个 token 的学习效率
  2. Long Context:扩展上下文长度以支持更复杂的 agent 任务
  3. Agent Swarms:多 agent 并行协作完成复杂任务

从 Scaling 到 Agent 的统一视角

杨植麟将这三个维度用 agent 的语言统一表述:token efficiency 对应更强的先验(agent RL 搜索更高效);long context 对应更长的 agent 运行时间(可运行数天甚至数周);agent swarms 则是并行化的新维度。最终目标是拥有一群具有超长上下文、超强先验的 agent 组成的集群。

Token Efficiency:Muon 优化器与训练稳定性

为什么 Token Efficiency 如此重要

杨植麟从经典的 Kaplan scaling law 出发,强调 token efficiency 不仅关乎效率,更关乎智能的上界

Token Efficiency = 智能上界的提升

假设你拥有 50 万亿高质量 token,如果新优化器能带来 2 倍的 token efficiency 提升,那就相当于"凭空"获得了 100 万亿 token 的效果。在高质量数据量趋近上限(data wall)的时代,提升 token efficiency 直接意味着推高智能的天花板。

Muon 优化器

Muon 是一种二阶优化器,其核心思想是对每次梯度更新进行变换,使得各参数分量相互正交。与传统的 AdamW 相比,Muon 在相同参数量和训练 token 数下能显著提升性能。

Kimi 团队是首个证明 Muon 优化器可扩展到大规模 LLM 训练的工作,核心技术包括:

  • Decay 策略:对 scaling 到更大模型至关重要
  • RMS 一致性:引入可调系数,确保 Muon 的 RMS update 与 Adam 可比
  • 分布式实现:将优化器状态分片到 data parallel group,实现高效的分布式 Muon

QK-Clip:解决训练不稳定性

当 Muon 扩展到 1 万亿参数模型时,团队遇到了训练不稳定问题:max logits 迅速飙升超过 1000(正常值约为 50--100),导致训练发散。

QK-Clip 技术

对每个 attention head,在 forward pass 中计算 max logit,然后计算一个除数因子,应用于 query 和 key 的投影,将最大值约束在给定范围内。实验表明:

  • 应用 QK-Clip 前后的训练曲线严格重合——不影响训练收敛
  • Max logit 在达到阈值(如 100)后被有效约束,随后自然下降

这使得 Kimi 团队成功完成了历史上首次大规模 Muon 训练(1 万亿参数)。

训练稳定性不可忽视

传统 Adam 训练中较少出现的 logit explosion 问题,在使用二阶优化器时可能被放大。仅仅更换优化器而不考虑稳定性机制,可能导致训练完全失败。

本章小结

Token efficiency 不仅是工程优化,更是推高智能上界的关键路径。Muon 优化器通过正交化梯度更新实现 2 倍 token efficiency 提升;QK-Clip 技术解决了大规模训练中的稳定性问题,使 Muon 成功扩展到万亿参数。

Long Context:Kimi Linear 与 Delta Attention

为什么长上下文对 Agent 时代至关重要

杨植麟引用了一个"隐藏的宝石"级别的经典图表:Transformer 与 LSTM 的对比。Transformer 不仅在相同参数和 token 数下获得更低的 loss,更关键的是它能持续通过上下文改善预测——随着 token index 增加,Transformer 的 loss 持续下降,而 LSTM 在一定范围后趋于饱和。

Transformer 的真正优势

Transformer 胜出不只是因为"更强",更因为它能利用更长的上下文持续获得信息增益。这一特性在 agent 时代尤为关键:agent 需要运行数天甚至数周来完成复杂任务(如从零编写 Linux 内核),这要求模型能高效处理超长的 trajectory。

Kimi Delta Attention:细粒度衰减

Kimi Linear 架构的核心创新是 Kimi Delta Attention,它改进了 GDR(Generalized Delta Rule)的循环记忆机制。

传统 linear attention 使用全局标量衰减因子(global scalar decay),导致只能在"遗忘一切"和"记住一切"之间二选一。Kimi Delta Attention 引入了细粒度衰减因子(fine-grained decay):

\[ \alpha \in \mathbb{R}^{d \times d} \quad (\text{对角矩阵,而非标量}) \]

这样不同 channel 可以有不同的衰减速率:

  • 部分 channel 缓慢衰减——保留长距离信息
  • 部分 channel 快速衰减——及时遗忘并吸收新信息

高效实现:Chunk-wise 公式与矩阵求逆

为了在现代 GPU 上并行化,需要将递推公式转换为 chunk-wise 形式。但对角矩阵 \(\alpha\) 无法像标量那样轻易提取公因子,带来了巨大的工程挑战。

精确等价的并行公式

通过引入矩阵求逆运算累积衰减因子,团队将递推公式重写为三个可并行计算的等式。这不是近似——是数学上严格等价的公式,在不牺牲任何精度的前提下实现高效并行。

性能对比

Kimi Linear 在公平对比中取得了全面领先:

  • 短上下文任务(MMAU):优于 MLA 和 GDN
  • 长上下文任务(Ruler):同样优于其他变体,且效率更高
  • 扩展到 100 万 token 及以上时,效率优势更加显著
  • 这是首个在所有维度上超越 full attention 的架构(短上下文、长输入、长输出)

架构采用 linear attention 与 full attention 以 3:1 的比例混合,在长上下文能力和效率之间取得平衡。

本章小结

Kimi Linear 通过细粒度衰减因子和精确等价的并行公式,实现了比 full attention 更好的性能和更高的效率,尤其在超长上下文场景下优势显著。

Agent Swarms:多 Agent 并行协作

Agent Swarm 范式

单 agent 模式面临任务复杂度的瓶颈。Kimi 提出了 Agent Swarm 范式:

  • 一个主 agent(orchestrator)负责任务编排
  • 主 agent 可以生成一组子 agent,分配子任务
  • 子 agent 并行执行,主 agent 收集结果
  • 整个过程可迭代进行

类比人类组织

Agent Swarm 类似于一家公司的组织结构:CEO 负责分解和分配任务(orchestrator),AI 研究员、Web 开发者、物理研究员等各司其职(sub-agents),最终由 fact checker 等角色汇总结果。

实验表明,Agent Swarm 能显著降低任务执行时间,尤其在高复杂度任务上效果突出。当扩展到 100 甚至 1000 个子 agent 时,可以在可接受的时间内完成复杂任务。

Agent Swarm 的 RL 训练

三项奖励函数

除了标准的结果奖励(outcome reward)外,Agent Swarm 的 RL 训练引入了两个额外的奖励信号:

  1. Instantiation Reward:激励子 agent 的并行实例化,防止"串行坍缩"——即模型退化为单 agent 执行
  2. Finish Reward:确保子任务有较高的完成率,防止模型"刷"第一个奖励——只生成大量子 agent 但不完成任务
  3. Outcome Reward:标准的任务完成度奖励

前两个奖励在训练过程中逐渐衰减权重(decay strategy),早期鼓励探索,后期侧重结果。

Agent Swarm 的训练陷阱

如果只有 outcome reward,模型容易退化为单 agent 模式(串行坍缩)。如果只加 instantiation reward,模型可能 hack 这一信号——生成大量伪子任务但从不完成。必须同时使用三种奖励信号才能实现稳定训练。

本章小结

Agent Swarm 通过多 agent 并行协作开辟了新的 scaling 维度。三项精心设计的奖励函数配合衰减策略,使模型能有效学习并行编排和任务分解能力。

Kimi K2.5:三个维度的融合

训练与架构

K2.5 将上述三个维度的进展融合为一个模型:

  • Muon + QK-Clip 优化器:提升 token efficiency
  • Kimi Delta Attention + Linear 架构:增强 long context 能力
  • Agent Swarms:开辟并行 scaling 新维度

模型在 NVIDIA H800 GPU 上训练,每个节点包含 2 TB RAM,GPU 间通过 NVLink 互联。K2.5 基础模型经过超过 30 万亿 token 的训练(base model 15T + K2.5 额外 15T),训练过程极其平稳——没有任何 loss spike。

Early Fusion:原生视觉-文本联合训练

K2.5 是首个具有原生联合视觉-文本能力的开放模型。不同于在文本模型之上添加视觉能力的 late fusion 方案,K2.5 从训练第 0 天起就融合视觉和文本 token(early fusion),初步实验表明这一方案优于 late fusion。

跨模态增强效应

K2.5 训练中发现了一个令人兴奋的现象:两种模态可以相互增强。

Vision 改善 Text,Text 改善 Vision

  • Vision \(\rightarrow\) Text:仅使用视觉任务进行 RL(不含任何数学/编程任务),却能提升文本推理性能
  • Text \(\rightarrow\) Vision:拥有强大的文本基础后,完全不需要视觉 SFT 数据(Zero Vision SFT),仅用文本 SFT + 联合 RL 就能达到接近 SOTA 的视觉性能

这一发现表明,early fusion 使两种模态真正共享了表示空间,实现了能力的双向迁移。

Attention Residue:下一代架构的预告

从 ResNet 到 Attention Residue

杨植麟回顾了何恺明在 ICML 2016 的经典 tutorial:ResNet 解决了深度网络训练中的梯度消失问题,使任意深度的网络变得可训练。他引用 Ilya Sutskever 两年前的观点:Residual connection 本质上是旋转了 90 度的 LSTM

深度维度上的"注意力"

如果在时序维度上,从 LSTM 到 Attention 是一次成功的升级,那么在深度维度上,能否做同样的事?Residual connection(类似 LSTM 的加法门控)可以被替换为 Attention——不仅取上一层的输出,而是对所有前序层的输出进行注意力聚合。这就是 Attention Residue。

Block Attention Residue

为了减少通信和显存开销,团队进一步设计了 Block Attention Residue

  • 将所有层分为多个 block(如每 16 层一个 block)
  • Block 内部使用标准 residual connection
  • Block 之间使用 attention residue

实验结果

  • Scaling law 上实现 24% token efficiency 提升(50T token \(\rightarrow\) 等效 62T token)
  • Validation loss 持续低于原始曲线
  • 在 GPQA、Math、HumanEval 等推理密集型 benchmark 上改进最为显著

本章小结

Attention Residue 将时序维度上从 LSTM 到 Attention 的成功迁移到深度维度,以 24% 的 token efficiency 提升和推理任务上的显著改进,展示了架构创新仍有巨大空间。

总结与延伸

研究范式的转变

杨植麟指出,当前 AI 研究范式与 10 年前截然不同。过去侧重"发表新 idea",但缺乏严格实验的支撑难以得出可靠结论。如今,有了 scaling ladder 和丰富的 benchmark 体系,可以在不同规模上验证想法,从而对"古老"的技术(如优化器、注意力机制、残差连接)做出自信且扎实的改进。

三个维度的乘法效应

从加法到乘法

三个 scaling 维度不是简单叠加,而是相互增强的乘法关系:

  • Adam (2014) \(\rightarrow\) Muon-Clip:更好的 token efficiency
  • Full Attention (2017) \(\rightarrow\) Kimi Linear:更好的长上下文
  • Residual Connection \(\rightarrow\) Attention Residue:更高效的深度 scaling

将这些改进相乘,可以获得远超单项改进之和的整体提升。

开源社区的未来

杨植麟对开源社区的未来持乐观态度,认为在架构和优化方面将持续涌现突破性改进。Agent Swarms 不是终点——scaling 的新维度会不断出现,推动开源模型与闭源模型的持续竞争。

拓展阅读

  • Kaplan et al., "Scaling Laws for Neural Language Models" (2020) --- 经典 scaling law
  • Muon Optimizer 论文 --- Kimi 团队的二阶优化器工作
  • Kimi Linear 技术报告 --- Delta Attention 的详细公式推导
  • Attention Residue 技术报告 --- 深度维度注意力的完整实验
  • He et al., "Deep Residual Learning for Image Recognition" (2015) --- ResNet 原始论文