How We Scaled Kimi K2.5
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | NVIDIA GTC 2026 |
| 日期 | 2026 |

引言:开放模型的愿景
杨植麟在 GTC 2026 的演讲中阐述了 Moonshot AI(Kimi)在开放模型领域的最新进展。他引用了 Jensen Huang 在 CES 上的一张 slide,指出开放模型正在快速缩小与闭源模型之间的差距,并正在达到前沿水平。
核心理念
开放模型不仅要"开放",更要"出色"(Open models cannot be just open --- they have to be great)。Kimi 团队的目标是让智能通过开源模型触达世界每个角落,同时在性能上与闭源模型竞争。
演讲围绕三个 scaling 维度展开:
- Token Efficiency:通过更好的架构和优化器,提升每个 token 的学习效率
- Long Context:扩展上下文长度以支持更复杂的 agent 任务
- Agent Swarms:多 agent 并行协作完成复杂任务
从 Scaling 到 Agent 的统一视角
杨植麟将这三个维度用 agent 的语言统一表述:token efficiency 对应更强的先验(agent RL 搜索更高效);long context 对应更长的 agent 运行时间(可运行数天甚至数周);agent swarms 则是并行化的新维度。最终目标是拥有一群具有超长上下文、超强先验的 agent 组成的集群。
Token Efficiency:Muon 优化器与训练稳定性
为什么 Token Efficiency 如此重要
杨植麟从经典的 Kaplan scaling law 出发,强调 token efficiency 不仅关乎效率,更关乎智能的上界。
Token Efficiency = 智能上界的提升
假设你拥有 50 万亿高质量 token,如果新优化器能带来 2 倍的 token efficiency 提升,那就相当于"凭空"获得了 100 万亿 token 的效果。在高质量数据量趋近上限(data wall)的时代,提升 token efficiency 直接意味着推高智能的天花板。
Muon 优化器
Muon 是一种二阶优化器,其核心思想是对每次梯度更新进行变换,使得各参数分量相互正交。与传统的 AdamW 相比,Muon 在相同参数量和训练 token 数下能显著提升性能。
Kimi 团队是首个证明 Muon 优化器可扩展到大规模 LLM 训练的工作,核心技术包括:
- Decay 策略:对 scaling 到更大模型至关重要
- RMS 一致性:引入可调系数,确保 Muon 的 RMS update 与 Adam 可比
- 分布式实现:将优化器状态分片到 data parallel group,实现高效的分布式 Muon
QK-Clip:解决训练不稳定性
当 Muon 扩展到 1 万亿参数模型时,团队遇到了训练不稳定问题:max logits 迅速飙升超过 1000(正常值约为 50--100),导致训练发散。
QK-Clip 技术
对每个 attention head,在 forward pass 中计算 max logit,然后计算一个除数因子,应用于 query 和 key 的投影,将最大值约束在给定范围内。实验表明:
- 应用 QK-Clip 前后的训练曲线严格重合——不影响训练收敛
- Max logit 在达到阈值(如 100)后被有效约束,随后自然下降
这使得 Kimi 团队成功完成了历史上首次大规模 Muon 训练(1 万亿参数)。
训练稳定性不可忽视
传统 Adam 训练中较少出现的 logit explosion 问题,在使用二阶优化器时可能被放大。仅仅更换优化器而不考虑稳定性机制,可能导致训练完全失败。
本章小结
Token efficiency 不仅是工程优化,更是推高智能上界的关键路径。Muon 优化器通过正交化梯度更新实现 2 倍 token efficiency 提升;QK-Clip 技术解决了大规模训练中的稳定性问题,使 Muon 成功扩展到万亿参数。
Long Context:Kimi Linear 与 Delta Attention
为什么长上下文对 Agent 时代至关重要
杨植麟引用了一个"隐藏的宝石"级别的经典图表:Transformer 与 LSTM 的对比。Transformer 不仅在相同参数和 token 数下获得更低的 loss,更关键的是它能持续通过上下文改善预测——随着 token index 增加,Transformer 的 loss 持续下降,而 LSTM 在一定范围后趋于饱和。
Transformer 的真正优势
Transformer 胜出不只是因为"更强",更因为它能利用更长的上下文持续获得信息增益。这一特性在 agent 时代尤为关键:agent 需要运行数天甚至数周来完成复杂任务(如从零编写 Linux 内核),这要求模型能高效处理超长的 trajectory。
Kimi Delta Attention:细粒度衰减
Kimi Linear 架构的核心创新是 Kimi Delta Attention,它改进了 GDR(Generalized Delta Rule)的循环记忆机制。
传统 linear attention 使用全局标量衰减因子(global scalar decay),导致只能在"遗忘一切"和"记住一切"之间二选一。Kimi Delta Attention 引入了细粒度衰减因子(fine-grained decay):
这样不同 channel 可以有不同的衰减速率:
- 部分 channel 缓慢衰减——保留长距离信息
- 部分 channel 快速衰减——及时遗忘并吸收新信息
高效实现:Chunk-wise 公式与矩阵求逆
为了在现代 GPU 上并行化,需要将递推公式转换为 chunk-wise 形式。但对角矩阵 \(\alpha\) 无法像标量那样轻易提取公因子,带来了巨大的工程挑战。
精确等价的并行公式
通过引入矩阵求逆运算和累积衰减因子,团队将递推公式重写为三个可并行计算的等式。这不是近似——是数学上严格等价的公式,在不牺牲任何精度的前提下实现高效并行。
性能对比
Kimi Linear 在公平对比中取得了全面领先:
- 短上下文任务(MMAU):优于 MLA 和 GDN
- 长上下文任务(Ruler):同样优于其他变体,且效率更高
- 扩展到 100 万 token 及以上时,效率优势更加显著
- 这是首个在所有维度上超越 full attention 的架构(短上下文、长输入、长输出)
架构采用 linear attention 与 full attention 以 3:1 的比例混合,在长上下文能力和效率之间取得平衡。
本章小结
Kimi Linear 通过细粒度衰减因子和精确等价的并行公式,实现了比 full attention 更好的性能和更高的效率,尤其在超长上下文场景下优势显著。
Agent Swarms:多 Agent 并行协作
Agent Swarm 范式
单 agent 模式面临任务复杂度的瓶颈。Kimi 提出了 Agent Swarm 范式:
- 一个主 agent(orchestrator)负责任务编排
- 主 agent 可以生成一组子 agent,分配子任务
- 子 agent 并行执行,主 agent 收集结果
- 整个过程可迭代进行
类比人类组织
Agent Swarm 类似于一家公司的组织结构:CEO 负责分解和分配任务(orchestrator),AI 研究员、Web 开发者、物理研究员等各司其职(sub-agents),最终由 fact checker 等角色汇总结果。
实验表明,Agent Swarm 能显著降低任务执行时间,尤其在高复杂度任务上效果突出。当扩展到 100 甚至 1000 个子 agent 时,可以在可接受的时间内完成复杂任务。
Agent Swarm 的 RL 训练
三项奖励函数
除了标准的结果奖励(outcome reward)外,Agent Swarm 的 RL 训练引入了两个额外的奖励信号:
- Instantiation Reward:激励子 agent 的并行实例化,防止"串行坍缩"——即模型退化为单 agent 执行
- Finish Reward:确保子任务有较高的完成率,防止模型"刷"第一个奖励——只生成大量子 agent 但不完成任务
- Outcome Reward:标准的任务完成度奖励
前两个奖励在训练过程中逐渐衰减权重(decay strategy),早期鼓励探索,后期侧重结果。
Agent Swarm 的训练陷阱
如果只有 outcome reward,模型容易退化为单 agent 模式(串行坍缩)。如果只加 instantiation reward,模型可能 hack 这一信号——生成大量伪子任务但从不完成。必须同时使用三种奖励信号才能实现稳定训练。
本章小结
Agent Swarm 通过多 agent 并行协作开辟了新的 scaling 维度。三项精心设计的奖励函数配合衰减策略,使模型能有效学习并行编排和任务分解能力。
Kimi K2.5:三个维度的融合
训练与架构
K2.5 将上述三个维度的进展融合为一个模型:
- Muon + QK-Clip 优化器:提升 token efficiency
- Kimi Delta Attention + Linear 架构:增强 long context 能力
- Agent Swarms:开辟并行 scaling 新维度
模型在 NVIDIA H800 GPU 上训练,每个节点包含 2 TB RAM,GPU 间通过 NVLink 互联。K2.5 基础模型经过超过 30 万亿 token 的训练(base model 15T + K2.5 额外 15T),训练过程极其平稳——没有任何 loss spike。
Early Fusion:原生视觉-文本联合训练
K2.5 是首个具有原生联合视觉-文本能力的开放模型。不同于在文本模型之上添加视觉能力的 late fusion 方案,K2.5 从训练第 0 天起就融合视觉和文本 token(early fusion),初步实验表明这一方案优于 late fusion。
跨模态增强效应
K2.5 训练中发现了一个令人兴奋的现象:两种模态可以相互增强。
Vision 改善 Text,Text 改善 Vision
- Vision \(\rightarrow\) Text:仅使用视觉任务进行 RL(不含任何数学/编程任务),却能提升文本推理性能
- Text \(\rightarrow\) Vision:拥有强大的文本基础后,完全不需要视觉 SFT 数据(Zero Vision SFT),仅用文本 SFT + 联合 RL 就能达到接近 SOTA 的视觉性能
这一发现表明,early fusion 使两种模态真正共享了表示空间,实现了能力的双向迁移。
Attention Residue:下一代架构的预告
从 ResNet 到 Attention Residue
杨植麟回顾了何恺明在 ICML 2016 的经典 tutorial:ResNet 解决了深度网络训练中的梯度消失问题,使任意深度的网络变得可训练。他引用 Ilya Sutskever 两年前的观点:Residual connection 本质上是旋转了 90 度的 LSTM。
深度维度上的"注意力"
如果在时序维度上,从 LSTM 到 Attention 是一次成功的升级,那么在深度维度上,能否做同样的事?Residual connection(类似 LSTM 的加法门控)可以被替换为 Attention——不仅取上一层的输出,而是对所有前序层的输出进行注意力聚合。这就是 Attention Residue。
Block Attention Residue
为了减少通信和显存开销,团队进一步设计了 Block Attention Residue:
- 将所有层分为多个 block(如每 16 层一个 block)
- Block 内部使用标准 residual connection
- Block 之间使用 attention residue
实验结果
- Scaling law 上实现 24% token efficiency 提升(50T token \(\rightarrow\) 等效 62T token)
- Validation loss 持续低于原始曲线
- 在 GPQA、Math、HumanEval 等推理密集型 benchmark 上改进最为显著
本章小结
Attention Residue 将时序维度上从 LSTM 到 Attention 的成功迁移到深度维度,以 24% 的 token efficiency 提升和推理任务上的显著改进,展示了架构创新仍有巨大空间。
总结与延伸
研究范式的转变
杨植麟指出,当前 AI 研究范式与 10 年前截然不同。过去侧重"发表新 idea",但缺乏严格实验的支撑难以得出可靠结论。如今,有了 scaling ladder 和丰富的 benchmark 体系,可以在不同规模上验证想法,从而对"古老"的技术(如优化器、注意力机制、残差连接)做出自信且扎实的改进。
三个维度的乘法效应
从加法到乘法
三个 scaling 维度不是简单叠加,而是相互增强的乘法关系:
- Adam (2014) \(\rightarrow\) Muon-Clip:更好的 token efficiency
- Full Attention (2017) \(\rightarrow\) Kimi Linear:更好的长上下文
- Residual Connection \(\rightarrow\) Attention Residue:更高效的深度 scaling
将这些改进相乘,可以获得远超单项改进之和的整体提升。
开源社区的未来
杨植麟对开源社区的未来持乐观态度,认为在架构和优化方面将持续涌现突破性改进。Agent Swarms 不是终点——scaling 的新维度会不断出现,推动开源模型与闭源模型的持续竞争。
拓展阅读
- Kaplan et al., "Scaling Laws for Neural Language Models" (2020) --- 经典 scaling law
- Muon Optimizer 论文 --- Kimi 团队的二阶优化器工作
- Kimi Linear 技术报告 --- Delta Attention 的详细公式推导
- Attention Residue 技术报告 --- 深度维度注意力的完整实验
- He et al., "Deep Residual Learning for Image Recognition" (2015) --- ResNet 原始论文