How We Scaled Kimi K2.5

LaTeX 源码

字段	内容
作者/整理	基于公开课程资料整理
来源	NVIDIA GTC 2026
日期	2026

引言：开放模型的愿景

杨植麟在 GTC 2026 的演讲中阐述了 Moonshot AI（Kimi）在开放模型领域的最新进展。他引用了 Jensen Huang 在 CES 上的一张 slide，指出开放模型正在快速缩小与闭源模型之间的差距，并正在达到前沿水平。

核心理念

开放模型不仅要"开放"，更要"出色"（Open models cannot be just open --- they have to be great）。Kimi 团队的目标是让智能通过开源模型触达世界每个角落，同时在性能上与闭源模型竞争。

演讲围绕三个 scaling 维度展开：

Token Efficiency：通过更好的架构和优化器，提升每个 token 的学习效率
Long Context：扩展上下文长度以支持更复杂的 agent 任务
Agent Swarms：多 agent 并行协作完成复杂任务

从 Scaling 到 Agent 的统一视角

杨植麟将这三个维度用 agent 的语言统一表述：token efficiency 对应更强的先验（agent RL 搜索更高效）；long context 对应更长的 agent 运行时间（可运行数天甚至数周）；agent swarms 则是并行化的新维度。最终目标是拥有一群具有超长上下文、超强先验的 agent 组成的集群。

Token Efficiency：Muon 优化器与训练稳定性

为什么 Token Efficiency 如此重要

杨植麟从经典的 Kaplan scaling law 出发，强调 token efficiency 不仅关乎效率，更关乎智能的上界。

Token Efficiency = 智能上界的提升

假设你拥有 50 万亿高质量 token，如果新优化器能带来 2 倍的 token efficiency 提升，那就相当于"凭空"获得了 100 万亿 token 的效果。在高质量数据量趋近上限（data wall）的时代，提升 token efficiency 直接意味着推高智能的天花板。

Muon 优化器

Muon 是一种二阶优化器，其核心思想是对每次梯度更新进行变换，使得各参数分量相互正交。与传统的 AdamW 相比，Muon 在相同参数量和训练 token 数下能显著提升性能。

Kimi 团队是首个证明 Muon 优化器可扩展到大规模 LLM 训练的工作，核心技术包括：

Decay 策略：对 scaling 到更大模型至关重要
RMS 一致性：引入可调系数，确保 Muon 的 RMS update 与 Adam 可比
分布式实现：将优化器状态分片到 data parallel group，实现高效的分布式 Muon

QK-Clip：解决训练不稳定性

当 Muon 扩展到 1 万亿参数模型时，团队遇到了训练不稳定问题：max logits 迅速飙升超过 1000（正常值约为 50--100），导致训练发散。

QK-Clip 技术

对每个 attention head，在 forward pass 中计算 max logit，然后计算一个除数因子，应用于 query 和 key 的投影，将最大值约束在给定范围内。实验表明：

应用 QK-Clip 前后的训练曲线严格重合——不影响训练收敛
Max logit 在达到阈值（如 100）后被有效约束，随后自然下降

这使得 Kimi 团队成功完成了历史上首次大规模 Muon 训练（1 万亿参数）。

训练稳定性不可忽视

传统 Adam 训练中较少出现的 logit explosion 问题，在使用二阶优化器时可能被放大。仅仅更换优化器而不考虑稳定性机制，可能导致训练完全失败。

本章小结

Token efficiency 不仅是工程优化，更是推高智能上界的关键路径。Muon 优化器通过正交化梯度更新实现 2 倍 token efficiency 提升；QK-Clip 技术解决了大规模训练中的稳定性问题，使 Muon 成功扩展到万亿参数。

Long Context：Kimi Linear 与 Delta Attention

为什么长上下文对 Agent 时代至关重要

杨植麟引用了一个"隐藏的宝石"级别的经典图表：Transformer 与 LSTM 的对比。Transformer 不仅在相同参数和 token 数下获得更低的 loss，更关键的是它能持续通过上下文改善预测——随着 token index 增加，Transformer 的 loss 持续下降，而 LSTM 在一定范围后趋于饱和。

Transformer 的真正优势

Transformer 胜出不只是因为"更强"，更因为它能利用更长的上下文持续获得信息增益。这一特性在 agent 时代尤为关键：agent 需要运行数天甚至数周来完成复杂任务（如从零编写 Linux 内核），这要求模型能高效处理超长的 trajectory。

Kimi Delta Attention：细粒度衰减

Kimi Linear 架构的核心创新是 Kimi Delta Attention，它改进了 GDR（Generalized Delta Rule）的循环记忆机制。

传统 linear attention 使用全局标量衰减因子（global scalar decay），导致只能在"遗忘一切"和"记住一切"之间二选一。Kimi Delta Attention 引入了细粒度衰减因子（fine-grained decay）：

\[ \alpha \in \mathbb{R}^{d \times d} \quad (\text{对角矩阵，而非标量}) \]

这样不同 channel 可以有不同的衰减速率：

部分 channel 缓慢衰减——保留长距离信息
部分 channel 快速衰减——及时遗忘并吸收新信息

高效实现：Chunk-wise 公式与矩阵求逆

为了在现代 GPU 上并行化，需要将递推公式转换为 chunk-wise 形式。但对角矩阵 \(\alpha\) 无法像标量那样轻易提取公因子，带来了巨大的工程挑战。

精确等价的并行公式

通过引入矩阵求逆运算和累积衰减因子，团队将递推公式重写为三个可并行计算的等式。这不是近似——是数学上严格等价的公式，在不牺牲任何精度的前提下实现高效并行。

性能对比

Kimi Linear 在公平对比中取得了全面领先：

短上下文任务（MMAU）：优于 MLA 和 GDN
长上下文任务（Ruler）：同样优于其他变体，且效率更高
扩展到 100 万 token 及以上时，效率优势更加显著
这是首个在所有维度上超越 full attention 的架构（短上下文、长输入、长输出）

架构采用 linear attention 与 full attention 以 3:1 的比例混合，在长上下文能力和效率之间取得平衡。

本章小结

Kimi Linear 通过细粒度衰减因子和精确等价的并行公式，实现了比 full attention 更好的性能和更高的效率，尤其在超长上下文场景下优势显著。

Agent Swarms：多 Agent 并行协作

Agent Swarm 范式

单 agent 模式面临任务复杂度的瓶颈。Kimi 提出了 Agent Swarm 范式：

一个主 agent（orchestrator）负责任务编排
主 agent 可以生成一组子 agent，分配子任务
子 agent 并行执行，主 agent 收集结果
整个过程可迭代进行

类比人类组织

Agent Swarm 类似于一家公司的组织结构：CEO 负责分解和分配任务（orchestrator），AI 研究员、Web 开发者、物理研究员等各司其职（sub-agents），最终由 fact checker 等角色汇总结果。

实验表明，Agent Swarm 能显著降低任务执行时间，尤其在高复杂度任务上效果突出。当扩展到 100 甚至 1000 个子 agent 时，可以在可接受的时间内完成复杂任务。

Agent Swarm 的 RL 训练

三项奖励函数

除了标准的结果奖励（outcome reward）外，Agent Swarm 的 RL 训练引入了两个额外的奖励信号：

Instantiation Reward：激励子 agent 的并行实例化，防止"串行坍缩"——即模型退化为单 agent 执行
Finish Reward：确保子任务有较高的完成率，防止模型"刷"第一个奖励——只生成大量子 agent 但不完成任务
Outcome Reward：标准的任务完成度奖励

前两个奖励在训练过程中逐渐衰减权重（decay strategy），早期鼓励探索，后期侧重结果。

Agent Swarm 的训练陷阱

如果只有 outcome reward，模型容易退化为单 agent 模式（串行坍缩）。如果只加 instantiation reward，模型可能 hack 这一信号——生成大量伪子任务但从不完成。必须同时使用三种奖励信号才能实现稳定训练。

本章小结

Agent Swarm 通过多 agent 并行协作开辟了新的 scaling 维度。三项精心设计的奖励函数配合衰减策略，使模型能有效学习并行编排和任务分解能力。

Kimi K2.5：三个维度的融合

训练与架构

K2.5 将上述三个维度的进展融合为一个模型：

Muon + QK-Clip 优化器：提升 token efficiency
Kimi Delta Attention + Linear 架构：增强 long context 能力
Agent Swarms：开辟并行 scaling 新维度

模型在 NVIDIA H800 GPU 上训练，每个节点包含 2 TB RAM，GPU 间通过 NVLink 互联。K2.5 基础模型经过超过 30 万亿 token 的训练（base model 15T + K2.5 额外 15T），训练过程极其平稳——没有任何 loss spike。

Early Fusion：原生视觉-文本联合训练

K2.5 是首个具有原生联合视觉-文本能力的开放模型。不同于在文本模型之上添加视觉能力的 late fusion 方案，K2.5 从训练第 0 天起就融合视觉和文本 token（early fusion），初步实验表明这一方案优于 late fusion。

跨模态增强效应

K2.5 训练中发现了一个令人兴奋的现象：两种模态可以相互增强。

Vision 改善 Text，Text 改善 Vision

Vision \(\rightarrow\) Text：仅使用视觉任务进行 RL（不含任何数学/编程任务），却能提升文本推理性能
Text \(\rightarrow\) Vision：拥有强大的文本基础后，完全不需要视觉 SFT 数据（Zero Vision SFT），仅用文本 SFT + 联合 RL 就能达到接近 SOTA 的视觉性能

这一发现表明，early fusion 使两种模态真正共享了表示空间，实现了能力的双向迁移。

Attention Residue：下一代架构的预告

从 ResNet 到 Attention Residue

杨植麟回顾了何恺明在 ICML 2016 的经典 tutorial：ResNet 解决了深度网络训练中的梯度消失问题，使任意深度的网络变得可训练。他引用 Ilya Sutskever 两年前的观点：Residual connection 本质上是旋转了 90 度的 LSTM。

深度维度上的"注意力"

如果在时序维度上，从 LSTM 到 Attention 是一次成功的升级，那么在深度维度上，能否做同样的事？Residual connection（类似 LSTM 的加法门控）可以被替换为 Attention——不仅取上一层的输出，而是对所有前序层的输出进行注意力聚合。这就是 Attention Residue。

Block Attention Residue

为了减少通信和显存开销，团队进一步设计了 Block Attention Residue：

将所有层分为多个 block（如每 16 层一个 block）
Block 内部使用标准 residual connection
Block 之间使用 attention residue

实验结果

Scaling law 上实现 24% token efficiency 提升（50T token \(\rightarrow\) 等效 62T token）
Validation loss 持续低于原始曲线
在 GPQA、Math、HumanEval 等推理密集型 benchmark 上改进最为显著

本章小结

Attention Residue 将时序维度上从 LSTM 到 Attention 的成功迁移到深度维度，以 24% 的 token efficiency 提升和推理任务上的显著改进，展示了架构创新仍有巨大空间。

总结与延伸

研究范式的转变

杨植麟指出，当前 AI 研究范式与 10 年前截然不同。过去侧重"发表新 idea"，但缺乏严格实验的支撑难以得出可靠结论。如今，有了 scaling ladder 和丰富的 benchmark 体系，可以在不同规模上验证想法，从而对"古老"的技术（如优化器、注意力机制、残差连接）做出自信且扎实的改进。

三个维度的乘法效应

从加法到乘法

三个 scaling 维度不是简单叠加，而是相互增强的乘法关系：

Adam (2014) \(\rightarrow\) Muon-Clip：更好的 token efficiency
Full Attention (2017) \(\rightarrow\) Kimi Linear：更好的长上下文
Residual Connection \(\rightarrow\) Attention Residue：更高效的深度 scaling

将这些改进相乘，可以获得远超单项改进之和的整体提升。

开源社区的未来

杨植麟对开源社区的未来持乐观态度，认为在架构和优化方面将持续涌现突破性改进。Agent Swarms 不是终点——scaling 的新维度会不断出现，推动开源模型与闭源模型的持续竞争。

拓展阅读

Kaplan et al., "Scaling Laws for Neural Language Models" (2020) --- 经典 scaling law
Muon Optimizer 论文 --- Kimi 团队的二阶优化器工作
Kimi Linear 技术报告 --- Delta Attention 的详细公式推导
Attention Residue 技术报告 --- 深度维度注意力的完整实验
He et al., "Deep Residual Learning for Image Recognition" (2015) --- ResNet 原始论文