CS336 Lecture 11: Scaling Laws 2

LaTeX 源码 · 备用 PDF · 观看视频

字段	内容
作者/整理	基于 Tatsu Hashimoto 授课内容整理
来源	Stanford Online
日期	2025年5月15日

引言：Scaling Laws 的实践应用

本节课是 Scaling Laws 系列的第二讲，也是最后一讲。与上一讲偏重理论基础不同，本讲更注重案例研究和实践细节。课程分为两个核心部分：

案例研究：分析多个实际模型（Cerebras GPT、MiniCPM、DeepSeek LLM 等）如何在训练过程中应用 scaling laws 来做出设计决策
MuP（Maximal Update Parameterization）：深入理解一种让超参数在不同模型规模间保持稳定的参数化方法

Lecture 11 封面：Scaling Laws 2

来源：Slides 第1页。

本讲的核心问题

Chinchilla 的 scaling law 方法真的有效吗？在实际大模型训练中表现如何？
如何在小规模实验中确定学习率、batch size 等超参数，并可靠地迁移到大规模训练？
是否存在某种参数化方式，使得最优超参数不随模型规模变化？

课程动机回顾：scaling laws 用于指导大模型的超参数选择和架构设计

来源：Slides 第2页。

从 Chinchilla 到实践的知识鸿沟

Chinchilla 论文之后，ChatGPT 的出现改变了大语言模型的竞争格局。各大前沿实验室不再公开发表关于 scaling 的详细研究。讲者提到，他与前沿实验室的人交流时，对方明确表示不会透露任何关于 scaling 的细节。因此，我们不得不依赖少数开放的模型训练报告来理解 scaling 在实践中的运作方式。

案例研究概览

案例研究覆盖的模型：Cerebras GPT、MiniCPM、DeepSeek LLM 三个核心案例，以及 Llama 3、Hunyuan Large、MiniMax-01 三个补充案例

来源：Slides 第3页。

讲者指出，在所有公开的 scaling 研究中，DeepSeek 和 MiniCPM 仍然是迄今为止最详细的开放式 scaling 研究——即使到了 2025 年，这一点也没有改变。

本章小结

Scaling laws 不仅是理论上的曲线拟合工具，更是指导实际大模型训练的核心方法论。本讲将通过多个真实案例，展示不同团队如何将 scaling laws 融入从超参数选择到模型规模决策的完整训练流程。

案例研究一：Cerebras GPT

模型概述

Cerebras GPT 是一个大型模型家族，涵盖 0.1B 到 13B 参数规模，使用 Chinchilla 配方训练（即 token 数与参数数的比值大致为最优比例）。

Cerebras GPT 概述：0.1B–13B 参数模型家族，使用 MuP 参数化，在 The Pile 上训练

来源：Slides 第4页。

MuP 的首次大规模公开验证

Cerebras GPT 的核心贡献在于它是最早公开验证 MuP 有效性的大规模模型之一。

Cerebras GPT 的 scaling 曲线：蓝色为标准参数化（SP），橙色为 MuP 参数化。MuP 版本的 scaling 更加平滑，更接近预测值

来源：Slides 第5页。

MuP 带来更可预测的 Scaling

使用标准参数化（SP）时，实际性能围绕 scaling law 预测值有较大振荡——这是因为不同规模的模型需要不同的学习率，而手动调优不可能完美。使用 MuP 后，振荡显著减小，实际性能更接近 scaling law 的预测曲线。

MuP 实现细节

Cerebras 团队在论文附录中提供了一张非常实用的对照表，清楚列出了标准参数化（SP）和 MuP 之间的具体差异。

$SP vs MuP 参数对照表：非 embedding 参数初始化缩放 $1/width$，每层学习率也按 width 缩放$

来源：Slides 第6页。

MuP 的实践要点可以简单概括为：

初始化：非 embedding 参数按 $1/\text{width}$ 缩放
学习率：每层学习率按 $1/\text{width}$ 缩放（对 Adam 优化器）
Embedding：保持常数缩放

小模型代理搜索策略

Cerebras GPT 的超参数搜索策略：在 40M 参数的代理模型上进行大规模超参数搜索，然后通过 MuP 将结果迁移到更大模型

来源：Slides 第7页。

Cerebras 团队将模型缩小到仅 40M 参数，在此规模上进行广泛的超参数搜索，然后利用 MuP 的超参数迁移特性将最优配置放大到 13B 规模。这一策略实现了约 5x 的计算节省。

小模型代理搜索的局限性

将实验缩小到 40M 参数是非常激进的做法。对于训练真正巨大的模型（如数百亿参数），这种程度的缩小是否仍然可靠尚不确定。但这一策略在 Cerebras GPT、MiniCPM 和 DeepSeek 中都有不同形式的体现——训练较小的代理模型，然后尝试稳定地放大。

本章小结

Cerebras GPT 提供了 MuP 的首次大规模公开验证，证明了通过合理的参数化可以使 scaling 更加可预测。其核心策略是：小规模搜索超参数 + MuP 迁移到大规模，从而大幅减少了超参数调优的计算开销。

案例研究二：MiniCPM

模型概述与动机

MiniCPM 来自中国的研究团队，目标是训练高质量的小语言模型（1.2B--2.4B 参数），通过大量计算实现远超同规模模型的性能。

MiniCPM 概述：1.2B–2.4B 参数模型，在当时击败了大多数同规模模型，甚至匹配了部分 7B 模型

来源：Slides 第8页。

MiniCPM 的研究价值

讲者指出，MiniCPM 虽然在西方学术圈没有获得足够关注，但它是最早展示中国研究组在 scaling 和模型优化方面达到前沿水平的论文之一。其 scaling 研究的深度和质量与 DeepSeek 不相上下。

MuP + 超参数搜索

MiniCPM 同样使用了 MuP 来稳定和简化 scaling 过程。

$MiniCPM 的 MuP 缩放策略：embedding 保持常数，残差连接层按 $√layers$ 缩放，初始化按 fan-in 缩放，学习率按 width 缩放$

来源：Slides 第9页。

MiniCPM 在超参数搜索和稳定扩展方面与 Cerebras GPT 采用了非常类似的策略：在小规模模型（约 9M--30M 参数）上进行大量超参数搜索，然后利用 MuP 确保学习率等关键超参数在更大规模下保持稳定。

MiniCPM 的超参数搜索与模型缩放：从小模型（9M–30M）到大模型（0.5B–1B），固定宽高比后仅调整整体规模

来源：Slides 第10页。

学习率稳定性验证

$MiniCPM 的学习率迁移验证：从小模型（浅色）到大模型（深色），最优学习率始终保持在 $≈ 10^-2$ 附近$

来源：Slides 第11页。

学习率迁移的经验验证

如果 MuP 有效，那么从小模型到大模型，最优学习率应保持不变。MiniCPM 的实验清楚地展示了这一点：不同规模的模型在 $\sim 10^{-2}$ 处都达到最低 loss，且 loss 曲线呈现宽阔的 basin（不敏感区域）和陡峭的不稳定边界——这与 Kaplan 论文中的早期观察一致。

WSD 学习率调度：Chinchilla 的高效替代

MiniCPM 最重要的贡献之一是推广了WSD（Warmup-Stable-Decay）学习率调度。

WSD vs Cosine 学习率调度对比：WSD 的 stable 阶段可被复用，而 Cosine 的每个终止点对应不同的调度曲线

来源：Slides 第13页。

Cosine 学习率的致命缺陷

使用 Cosine 学习率调度时，不能从一次训练中取早期 checkpoint 来推断不同数据量下的 scaling 行为。因为不同数据目标对应不同的 Cosine 曲线——短数据训练的 Cosine 下降很快，长数据训练的 Cosine 下降很慢。这意味着要拟合 Chinchilla scaling law，需要对每个数据量-模型规模组合从头训练，计算量接近 $n^2$ 级别。很多人在这个问题上踩过坑。

WSD 学习率调度分为三个阶段：

Warmup：与 Cosine 相同的升温阶段
Stable：学习率保持恒定的平坦阶段
Decay：快速冷却到最小学习率

WSD 的核心优势：一次训练，多次复用

WSD 的 Stable 阶段是平坦的，这意味着可以共享同一个 Stable 阶段的训练。要获取不同数据量的结果，只需从 Stable 阶段的不同 checkpoint 分别执行 Decay，而不需要从头重新训练。这使得 Chinchilla 式的 data scaling 分析几乎可以在一次训练的成本内完成。

WSD 训练曲线特征

WSD 训练曲线（深色线）vs Cosine 训练曲线（浅色线）：WSD 在 Decay 阶段 loss 急剧下降

来源：Slides 第14页。

WSD 的训练曲线看起来有些“不正常”——在 Stable 阶段，loss 缓慢下降；一旦进入 Decay 阶段，loss 会急剧下降，直到达到终点。这种急剧下降是正常现象，不必担忧。

Cool-down 阶段的重要性

实验表明，大部分 loss 的降低发生在 Decay（Cool-down）阶段。如果不执行 Cool-down，会导致巨大的 loss 损失。这揭示了优化器学习率设计的核心权衡：高学习率帮助模型远离初始化点进行探索，而 Cool-down 则让模型在好的区域精细收敛（退火）。

Chinchilla 复现与 Token-Parameter 比例

MiniCPM 的 Chinchilla 复现：使用方法一（下包络线）和方法三（联合曲线拟合）

来源：Slides 第16页。

MiniCPM 使用 WSD 学习率调度后，利用方法一和方法三复现了 Chinchilla 分析。他们得到了极高的 token/parameter 比例——192:1。

192:1 比例的可信度存疑

讲者对 MiniCPM 的 192:1 token/parameter 比例持保留态度——这远高于其他任何复现结果。Chinchilla 原始论文得到 20:1，Llama 3 得到约 39:1，Hunyuan 得到 96:1。MiniCPM 团队认为 LLaMA 风格架构和更好的数据质量可以支撑更高的比例，但这一数字仍是一个显著的异常值。

MiniCPM 的 Scaling Law 拟合：code 和 English 的 perplexity 随模型规模和数据量的变化

来源：Slides 第17页。

核心 Takeaway：20:1 只是起点

Chinchilla 的 20 token/parameter 比例只是一个起点，实际可以远远超越。Llama 3 等现代模型的训练比例远超 20:1，且并没有出现严重的收益递减。不同架构、不同数据质量、不同优化策略都会影响这一最优比例。

本章小结

MiniCPM 的核心贡献包括：（1）推广了 WSD 学习率调度，使 Chinchilla 式分析的计算成本大幅降低；（2）通过 MuP 实现了学习率的跨规模迁移；（3）展示了超越 Chinchilla 比例的可能性。WSD 现已被广泛采用。

案例研究三：DeepSeek LLM

模型概述

DeepSeek LLM 是原始 DeepSeek 论文（2024年初），包含 7B 和 67B 参数模型。

DeepSeek LLM 概述：7B 和 67B 参数模型，在当时匹配 Llama 2 和 Mistral 的性能

来源：Slides 第19页。

DeepSeek 的科学态度

讲者特别强调，阅读 DeepSeek LLM 的原始论文就能看出这是“非常认真的科学家”在做研究——他们进行了大量仔细的 scaling ablation，真正试图在放大模型之前把一切都做对。这种态度是那些在 scaling 上取得成功的团队所共有的。

直接拟合 Scaling Law 的策略

与 Cerebras GPT 和 MiniCPM 不同，DeepSeek 没有使用 MuP。他们采取了一种更直接的方法：直接拟合学习率和 batch size 随计算量变化的 scaling law。

$DeepSeek 的超参数搜索：在两个小规模模型上运行学习率 $×$ batch size 的网格搜索$

来源：Slides 第20页。

DeepSeek 的具体策略是：

在多个不同 FLOP 规模的小模型上运行学习率和 batch size 的网格搜索
找到每个规模下的最优学习率和 batch size
将最优值拟合为计算量的函数（即 scaling law）
外推到目标规模来预测最优超参数

DeepSeek 的 Batch Size 和学习率 Scaling Law：Batch size 的 scaling 趋势较为清晰（左），学习率的 scaling 趋势则有些可疑（右）

来源：Slides 第21页。

学习率 Scaling Law 的可信度

讲者对 DeepSeek 的学习率 scaling law 表示怀疑——“我大概也能拟合一条水平线，看起来也差不多对”。Batch size 的 scaling 趋势更为清晰。总体而言，超参数的 scaling 总是看起来比较嘈杂，但 isoFLOP 分析的 scaling 则非常干净——这是一个在所有研究中反复出现的规律。

WSD 学习率与 Chinchilla 复现

DeepSeek 同样使用了 WSD 风格的学习率调度，不过他们的方案稍有不同——使用了两段 Decay（各占总训练的约 10%），总计约 20% 的计算预算用于 Cool-down。

DeepSeek 的 WSD 学习率变体和 Cosine 对比：WSD 匹配 Cosine 性能，但允许更高效的 Chinchilla 分析

来源：Slides 第22页。

IsoFLOP 分析

DeepSeek 的 isoFLOP 分析：不同计算规模下的二次曲线拟合，底部连线给出最优 token 数和模型规模

来源：Slides 第23页。

DeepSeek 的 Chinchilla 复现非常干净。讲者称赞他们没有简单地照搬 Chinchilla 的 20:1 比例，而是从头进行了完整的 isoFLOP 分析，确保自己的 token/parameter 配比是合理的。

Scaling 预测验证

$DeepSeek 的 Scaling Law 预测：从 $≈ 10^20$ FLOP 外推到 $10^24$ FLOP，准确预测了 7B 和 67B 模型的最终 loss$

来源：Slides 第24页。

成功的 Scaling 外推

DeepSeek 展示了令人印象深刻的 scaling 外推能力：基于 $\sim 10^{20}$ FLOP 规模的小实验拟合的 scaling law，成功预测了高达 $10^{24}$ FLOP 规模的 7B 和 67B 模型的最终性能。这证明了 scaling laws 在实际模型训练中的预测价值。

本章小结

DeepSeek 采取了与 Cerebras GPT 和 MiniCPM 不同的策略：不使用 MuP，而是直接拟合超参数的 scaling law。他们的成功表明，只要足够仔细地进行 scaling 分析（尤其是 isoFLOP 分析），就能获得可靠的 scaling 预测，即使超参数 scaling 本身有些嘈杂。

近期模型的 Scaling 实践

Llama 3

Llama 3 的 isoFLOP 分析：最优 token/parameter 比例约为 39:1

来源：Slides 第26页。

Llama 3 复现了 isoFLOP 分析，得到约 39:1 的最优 token/parameter 比例——高于 Chinchilla 的 20:1，但远低于 MiniCPM 的 192:1。

Llama 3 的 Scaling-to-Benchmark 预测：通过拟合 sigmoid 函数，将 NLL 映射到下游任务准确率

来源：Slides 第27页。

Llama 3 的另一个有趣贡献是尝试将 scaling 从 log-likelihood 扩展到下游任务准确率。他们拟合了 sigmoid 函数，将 NLL（负对数似然）映射到 MMLU 等 benchmark 的分数，并成功预测了 Llama 3 405B 的下游性能。

Hunyuan Large

Hunyuan Large 的 isoFLOP 分析：得到 96:1 的 data-to-active-parameter 比例

来源：Slides 第28页。

Hunyuan Large（混元大模型）同样复现了 Chinchilla 式分析，得到 96:1 的比例。由于架构差异（可能使用了 MoE 等），不同论文的比例自然会有所不同。

MiniMax-01：Architecture Scaling

MiniMax-01：比较 Softmax attention、Lightning attention（线性）和 Hybrid attention 的 scaling 行为

来源：Slides 第29页。

MiniMax-01 展示了 scaling laws 的另一种应用：架构选择验证。他们比较了标准 Softmax attention、线性 Lightning attention 和混合模型的 scaling 曲线，发现三者在 compute-matched 下性能基本一致，从而为使用线性注意力实现长上下文提供了 scaling 层面的理论支撑。

用 Scaling Law 比较架构

在 Mamba、DeltaNet 等线性注意力的研究论文中，经常看到类似的 compute-matched scaling 比较。MiniMax-01 的独特之处在于它不仅仅是学术论文中的小规模比较，而是在接近实际生产规模的模型上进行了验证。

案例研究总结

所有案例研究的 Scaling 策略对比

来源：Slides 第30页。

Scaling 实践中的共同模式

Chinchilla 复现是最一致、最可靠的 scaling 分析——所有团队都做了，且结果非常干净
超参数 scaling（学习率、batch size）总是更嘈杂，不同团队使用不同策略：MuP（Cerebras、MiniCPM）或直接拟合 scaling law（DeepSeek）
固定宽高比后仅调整总模型规模，是处理架构 scaling 的通用做法
WSD 学习率调度已被广泛采用，因其大幅降低了 data scaling 分析的成本

本章小结

从 Chinchilla 原始论文的 20:1 到 Llama 3 的 39:1、Hunyuan 的 96:1，不同团队在不同条件下得到不同的最优比例。20:1 不是一个稳定的常数，但 isoFLOP 分析的方法论本身非常可靠且可复现。所有认真做 scaling 的团队都在某种程度上重复了 Chinchilla 的分析。

MuP 理论推导

核心思想：两个稳定性条件

MuP（Maximal Update Parameterization）基于两个简单而自然的想法：

$MuP 的两个核心条件：A1——初始化时激活值保持 $Θ(1)$；A2——一步梯度后激活值变化也保持 $Θ(1)$$

来源：Slides 第32页。

MuP 的两个 Axiom

当我们增大模型宽度 $n$ 时：

条件 A1（初始化稳定性）：每个坐标的激活值 $h_i^{(l)}$ 应保持 $\Theta(1)$——不随宽度爆炸或消失。等价地，激活向量的 $\ell_2$ 范数应为 $\Theta(\sqrt{n_l})$。
条件 A2（更新稳定性）：一步梯度下降后，每个坐标的激活值变化量 $\Delta h_i^{(l)}$ 也应保持 $\Theta(1)$。

如果违反了这些条件，那么随着模型变宽，要么初始激活值爆炸/消失，要么梯度更新爆炸/消失——两者都会导致训练不稳定。

条件 A1：推导初始化规则

考虑一个深度线性网络（无非线性激活函数）：

\[ h^{(l)} = W^{(l)} h^{(l-1)} \]

其中 $W^{(l)} \sim \mathcal{N}(0, (\sigma^{(l)})^2)$，即每个元素独立采样自零均值高斯分布，标准差为 $\sigma^{(l)}$。

MuP 推导：深度线性网络的初始化分析。随机矩阵理论告诉我们算子范数如何集中

来源：Slides 第33页。

根据随机矩阵理论，当 $n_l, n_{l-1} \to \infty$ 时，高斯矩阵 $W^{(l)}$ 的算子范数集中于：

\[ \|W^{(l)}\|_{\text{op}} \approx \sigma^{(l)} \left(\sqrt{n_l} + \sqrt{n_{l-1}}\right) \]

为了保证 $\|h^{(l)}\| \approx \sqrt{n_l}$（即每个坐标为 $\Theta(1)$），我们需要选择：

\[ \sigma^{(l)} = \frac{1}{\sqrt{n_{l-1}}} \cdot \min\left(1, \sqrt{\frac{n_{l-1}}{n_l}}\right) \]

简单来说，这就是 $\sigma \sim 1/\sqrt{\text{fan\_in}}$，再加上一个当 fan_in 远大于 fan_out 时的修正因子。

$归纳证明：如果 $\|h^(l-1)\| = √n_l-1$ 且 $σ^(l) ≈ 1/√n_l-1$，则 $\|h^(l)\| = √n_l$$

来源：Slides 第34页。

与 Kaiming 初始化的关系

条件 A1 推导出的初始化规则本质上就是 Kaiming 初始化（$\sigma \sim 1/\sqrt{\text{fan\_in}}$）。如果你已经在使用 Kaiming 初始化，那么你已经满足了 MuP 的第一个条件。MuP 的真正新贡献在于条件 A2 所推导出的学习率规则。

条件 A2：推导学习率规则

$MuP 推导第二部分：从更新稳定性条件推导学习率。关键是确定 $\| W^(l)\|_op$ 的大小$

来源：Slides 第35页。

SGD 的权重更新为：

\[ \Delta W^{(l)} = -\eta^{(l)} \cdot \nabla_{h^{(l)}} \mathcal{L} \cdot (h^{(l-1)})^T \]

当 batch size 为 1 时，这是一个秩一矩阵。要使 $\|\Delta h^{(l)}\| = \Theta(\sqrt{n_l})$（即每个坐标的变化为 $\Theta(1)$），需要：

\[ \|\Delta W^{(l)}\|_{\text{op}} \cdot \|h^{(l-1)}\| = \Theta(\sqrt{n_l}) \]

推导中还引入了一个额外假设：Loss 的变化也应为 $\Theta(1)$——即模型每步的改善量不应随宽度而爆炸或消失。

$推导结论：SGD 的学习率应为 $η^(l)_SGD = n_l / n_l-1$（fan_out/fan_in）；Adam 的学习率应为 $η^(l)_Adam = 1/n_l-1$（1/fan_in）$

来源：Slides 第36页。

最终推导结果非常简洁：

\[ \eta^{(l)}_{\text{SGD}} = \frac{n_l}{n_{l-1}} = \frac{\text{fan\_out}}{\text{fan\_in}} \]

\[ \eta^{(l)}_{\text{Adam}} = \frac{1}{n_{l-1}} = \frac{1}{\text{fan\_in}} \]

$n_l$：第 $l$ 层的输出维度（fan_out）
$n_{l-1}$：第 $l$ 层的输入维度（fan_in）

SGD vs Adam 的 MuP 差异

对于 SGD，$\eta_{\text{SGD}} = \text{fan\_out}/\text{fan\_in}$——在 Transformer 中，MLP 层的 fan_out/fan_in 通常是固定常数（如 4），所以 MuP 对 SGD 的影响很小，与标准参数化几乎没有区别。

对于 Adam，$\eta_{\text{Adam}} = 1/\text{fan\_in}$——这意味着每一层的学习率随宽度反比缩放。这与标准做法（全局恒定学习率）有根本区别。这就是 MuP 在 Adam 下的核心贡献。

MuP 总结：从推导到实践

$MuP 总结：初始化规则（$1/√fan_in$ 加修正因子）和学习率规则（SGD: fan_out/fan_in; Adam: 1/fan_in）$

来源：Slides 第37页。

MuP 的实用总结

初始化：$\sigma^{(l)} = \frac{1}{\sqrt{\text{fan\_in}}} \cdot \min\left(1, \sqrt{\frac{\text{fan\_in}}{\text{fan\_out}}}\right)$

（与 Kaiming 初始化基本一致）

学习率（Adam）：$\eta^{(l)} \propto \frac{1}{\text{fan\_in}^{(l)}}$

（这是关键差异——标准做法使用全局恒定学习率）

实践效果：如果使用 Adam + MuP，你可以在小模型上找到最优学习率，然后直接迁移到大模型，无需重新搜索。

$回到 Cerebras GPT 对照表：MuP 列中所有层的初始化按 $1/width$ 缩放，学习率也按 $1/width$ 缩放——完全符合我们的推导$

来源：Slides 第38页。

物理学的启发：重正化

MuP 的核心思想——当某个参数趋于无穷时，我们要求关键量保持稳定（不爆炸、不消失）——实际上与物理学中的重正化（renormalization）思想高度一致。这是一个在物理中被反复验证的强大方法论，如今在深度学习中找到了自然的应用。

Attention 层的特殊处理

$MuP 在 Attention 层的特殊处理：使用 $1/d$ 而非标准的 $1/√d$ 来缩放 attention score$

来源：Slides 第39页。

标准 Transformer 使用 $1/\sqrt{d}$ 缩放 attention score（Scaled Dot-Product Attention）。但在 MuP 框架下，基于激活值和更新稳定性的分析，应该使用 $1/d$ 缩放。这是一个微妙但重要的区别。

本章小结

MuP 基于两个自然条件——初始化时激活值稳定、梯度更新后激活值变化稳定——推导出了精确的初始化规则和每层学习率规则。对于 Adam 优化器，关键变化是每层学习率按 $1/\text{fan\_in}$ 缩放。深度线性网络是推导的简化模型；将结论推广到非线性激活、attention 层、GLU 等需要额外分析。

MuP 的实证验证

大规模 Ablation 研究

大规模 MuP 探索论文概述：系统验证 MuP 在各种架构变体、优化器和正则化选择下的鲁棒性

来源：Slides 第41页。

讲者介绍了一篇发表于 CoLM 的论文《A Large-Scale Exploration of $\mu$-Transfer》，该论文通过大量 ablation 实验系统检验了 MuP 的适用范围和局限性。

基础验证：MuP 有效吗？

$MuP 有效性验证：不同宽度（128–2048）下，最优学习率（$2^-6$）保持不变$

来源：Slides 第42页。

实验设置：固定深度，将宽度从 128 扩展到 2048。在最小宽度上扫描学习率，找到最优值。如果 MuP 有效，这个最优学习率应该直接迁移到更大宽度。

结果：学习率确实可靠迁移。不同宽度的最优学习率都是 $2^{-6}$。

MuP 对什么鲁棒？

非线性变体：SwiGLU、Squared ReLU 等都不影响最优学习率的迁移

来源：Slides 第43页。

论文测试了多种架构变体：

变体	学习率迁移	备注
非线性激活（SwiGLU、Squared ReLU）	有效	最优 LR 不变
Batch size 变化（$× 4$ 上下）	有效	最优 LR 不变
初始化变体（Query 初始化为零等）	有效	最优 LR 不变
Unembedding 层 SP vs MuP	有效	最优 LR 不变

MuP 鲁棒性测试——有效的情况

Batch size 变体、初始化变体的学习率迁移测试：均保持稳定

来源：Slides 第44页。

MuP 在何时失效？

MuP 失效案例：可学习的 RMSNorm gain（左上）、Lion 优化器（右上）、强 weight decay（下方）

来源：Slides 第46页。

MuP 失效的三种情况

可学习的 bias/gain：如果在 RMSNorm 中添加可学习的 gain 参数，MuP 会失效。需要移除这些参数。
非标准优化器：如 Lion（取梯度的 sign 作为更新方向）。MuP 是为特定优化器（SGD/Adam/AdamW）设计的，使用完全不同的优化器自然无法保证学习率迁移。
强 Weight Decay：较强的 weight decay 会破坏 MuP 的学习率迁移。这是一个显著的实践限制，因为 weight decay 是标准训练中常用的正则化手段。

标准参数化 vs MuP 的对比

标准参数化（SP）的学习率迁移：相同学习率在宽度 2048 时导致模型爆炸/退化

来源：Slides 第48页。

使用标准参数化时，在小模型上找到的最优学习率不能直接用于大模型——大模型会因为更新过大而训练失败。学习率必须随规模可预测地下降。

大规模验证

$10B 参数模型验证：在中小规模上确定的 base 学习率 $2^-6$ 在 10B 模型上仍然是最优的$

来源：Slides 第49页。

论文还进行了一次大规模“hero run”验证：将在中小规模上找到的最优学习率直接用于 10B 参数模型，结果证实该学习率仍然是最优的。这为 MuP 的实用性提供了重要的经验支持。

Meta 的 Llama 4 与 MuP

讲者提到，Meta 在 Llama 4 中使用了一种名为 “MetaP” 的技术，这是 MuP 的一个变体。虽然 Llama 4 的论文尚未发表，但这表明 MuP 类方法正在被前沿实验室采用。不过，MuP 目前还不是行业共识——并非所有团队都使用它。

本章小结

经验验证表明，MuP 在大多数标准设置下（Adam/AdamW 优化器、常见非线性激活、合理的 batch size 范围）可以可靠地实现学习率的跨规模迁移。主要失效场景包括可学习的 norm gain、非标准优化器和强 weight decay。

总结与延伸

讲者的核心总结

全课总结：如何在实际中进行 Scaling

来源：Slides 第51页。

Tatsu Hashimoto 在课程结尾总结了 Scaling Laws 实践的三个层面：

超参数设置：通过 scaling laws 或 MuP 来确定学习率和 batch size，避免在大规模训练上进行代价高昂的网格搜索
稳定性策略：使用 MuP 或 assume stability（假设超参数不随规模变化）来简化 scaling 流程
高效数据分析：使用 WSD 学习率调度来降低 Chinchilla 式 data scaling 分析的计算成本

全课知识图谱

本课建立了从理论到实践的完整认知链：

TikZ diagram

关键 Takeaways

七条核心原则

Chinchilla 分析是最可靠的 Scaling 工具：isoFLOP 分析在所有团队、所有复现中都表现出色，是 scaling 的“黄金标准”
20:1 只是起点：实际最优 token/parameter 比例因架构、数据质量、优化策略而异，可以显著高于 20:1
超参数 Scaling 总是嘈杂的：学习率、batch size 的 scaling law 不如 loss scaling law 干净，但获取正确的数量级即可
WSD 是实用的学习率调度：它使 Chinchilla 式分析几乎可以在一次训练中完成
MuP 解决了学习率迁移问题：通过合理的初始化和每层学习率缩放，可以在小模型上搜索最优学习率并直接迁移
MuP 不是万能的：它对 weight decay、非标准优化器、可学习 gain 敏感
认真的 Scaling 分析是区分成功与失败的关键：DeepSeek 等模型的成功与其仔细的 scaling 研究密不可分

拓展阅读

Cerebras GPT 论文：https://arxiv.org/abs/2304.03208
MiniCPM 技术报告：https://arxiv.org/abs/2404.06395
DeepSeek LLM 论文：https://arxiv.org/abs/2401.02954
Llama 3 论文：https://arxiv.org/abs/2407.21783
Yang et al., Tensor Programs V (MuP)：https://arxiv.org/abs/2203.03466
《A Large-Scale Exploration of $\mu$-Transfer》：系统验证 MuP 鲁棒性的 ablation 研究
《A Practitioner's Guide to MuP》：MuP 的实践入门指南
Hoffmann et al., Training Compute-Optimal Language Models (Chinchilla)：https://arxiv.org/abs/2203.15556
过度训练惩罚分析（UW + Apple）：估算超越 Chinchilla 比例时的 loss 退化