跳转至

CS336 Lecture 9: Scaling Laws 1

LaTeX 源码 · 备用 PDF · 观看视频

字段 内容
作者/整理 基于 Tatsu Hashimoto 授课内容整理
来源 Stanford Online
日期 2025年5月

CS336 Lecture 9: Scaling Laws 1

引言:为什么需要 Scaling Laws

假设你有一位非常有钱的朋友,给了你 100,000 张 H100 GPU 用一个月,目标是构建最好的开源大语言模型。前面的课程已经教会了你分布式训练框架、预训练数据准备、模型架构选择等基本要素。但面对如此庞大的资源,一个核心问题浮现了:如何在不浪费算力的前提下,做出最优的工程决策?

课程大纲:Scaling Laws 的核心动机与学习目标

来源:Slides 第2页。

简单地“照搬别人的做法”(如 follow LLaMA 的配置)虽然安全,但无法真正推动前沿。如果你在一家前沿实验室,想要创新和优化,就需要一套系统性的方法来预测不同决策在大规模下的表现。

Scaling Laws 的核心价值

Scaling Laws 的核心思想是:通过训练一系列小模型来预测大模型的行为。不再需要花费巨额算力直接调优大模型,而是在小规模上学习规律,然后外推到大规模,“一次搞定”大模型训练。

传统深度学习的做法是:直接训练大模型、调超参数、发现效果不好、再调——这极其昂贵。新的“乐观主义”方法是:

  1. 在小规模上训练大量模型
  2. 从小模型中学习行为规律
  3. 外推到大规模,一次性训练出最优大模型

从小模型学习规律,外推到大模型——这是 Scaling Laws 的基本方法论

来源:Slides 第3页。

本章小结

Scaling Laws 为大语言模型的工程决策提供了一套基于数据驱动的科学方法。其核心前提是:模型在小规模上展示的趋势可以可靠地外推到大规模。这一思想贯穿本节课的所有内容。

Scaling Laws 的历史脉络

理论根源:统计学习理论

Scaling Laws 并非全新概念。在经典统计学习理论中,人们早已研究过“模型性能如何随数据量和模型复杂度变化”的问题。

统计学习理论中的 Scaling:泛化界与非参数收敛率

来源:Slides 第4页。

在有限假设类 \(\mathcal{H}\) 中选择模型时,经典泛化界给出:

\[ \text{Excess Risk} \leq O\left(\sqrt{\frac{\log |\mathcal{H}|}{m}}\right) \]

其中 \(m\) 是样本数。这告诉我们误差随样本量以 \(1/\sqrt{m}\) 的速率衰减——这本身就是一种“Scaling Law”。

对于更灵活的非参数模型类(如核密度估计),\(\beta\)-光滑函数的 \(L_2\) 估计误差为:

\[ \text{Error} \leq O\left(n^{-\frac{\beta}{2\beta+1}}\right) \]

从理论到经验:一个根本性的跃迁

理论给出的是上界(upper bounds),而非实际实现的损失值。Scaling Laws 的真正突破在于:从理论预测的收敛速率出发,转向经验性地拟合模型性能与资源之间的精确关系。理论提供的是“应该期待什么形式的衰减”,经验拟合则告诉我们“具体的系数和指数是多少”。

第一篇 Scaling Law 论文:Bell Labs 1993

Tatsu 认为,历史上第一篇真正的 Scaling Law 论文可能是 1993 年 NeurIPS 上来自 Bell Labs 的工作。论文的作者包括 Vapnik、Cortes 等经典机器学习理论的先驱。

Bell Labs 1993:可能是最早的 Scaling Law 论文

来源:Slides 第5页。

这篇论文的核心思想惊人地超前:

  • “训练大规模分类器非常耗费计算资源,需要在训练前预测模型好坏”
  • 测试误差可表示为 \(\text{Error} = \epsilon_\infty + a \cdot n^{-\alpha}\)(不可约误差 + 多项式衰减项)
  • 通过小模型拟合曲线,可以准确预测大模型的行为

历史的回响

这些想法在 30 年后的今天看来如此自然,但在 1993 年就已经被 Bell Labs 的研究者们清晰地表述出来了。正如许多技术突破一样,Scaling Laws 的种子在很早之前就已播下。

数据缩放的早期研究

Banko & Brill (2001) 以及 Hestness et al. (2017) 的数据缩放研究

来源:Slides 第6页。

Banko & Brill (2001) 研究了 NLP 系统性能如何随数据量缩放。他们发现性能改善是可预测的,并提出了一个至今仍有争议的问题:应该花时间改进算法,还是只需收集更多数据?

Hestness et al. (2017) 可能是大规模神经网络 Scaling Law 的最早系统研究。他们在机器翻译、语音识别和视觉任务上展示了误差率以幂律衰减的规律,并提出了模型行为的三个阶段:

模型性能的三个阶段

  1. 随机猜测阶段:数据太少,模型表现接近随机
  2. 幂律缩放阶段:性能随资源投入可预测地改善(这是 Scaling Laws 最有用的区间)
  3. 渐近阶段:接近模型类的不可约误差,改善越来越慢

Hestness et al. (2017) 的三阶段模型以及跨任务的幂律缩放

来源:Slides 第7页。

Hestness 等人的论文虽然早于后来的大规模 Scaling Law 热潮,但已经包含了许多关键洞察:

  • 在随机猜测区域用 Scaling Law 做预测很困难(“涌现能力”的前兆)
  • 可预测的缩放意味着计算扩展非常重要
  • 量化等效率技术是值得的——如果缩放是可预测的,就应该愿意用计算来换取精度

“涌现能力”与 Scaling Laws 的关系

近年来关于“涌现能力”(emergent capabilities)的讨论非常热烈,但实际上 Hestness 在 2017 年就已经指出:在模型处于随机猜测区域时,Scaling Laws 的预测是不可靠的。所谓“涌现”,可能部分是从随机猜测区域进入幂律区域时的“跳跃”。

本章小结

Scaling Laws 有深厚的历史根基:从 VC 维和非参数收敛率的理论,到 1993 年 Bell Labs 的开创性工作,再到 2017 年 Hestness 的多任务验证。核心发现是:模型性能与数据/计算之间存在可预测的幂律关系,这一规律跨领域、跨模型族普遍成立。

数据 Scaling Laws:理论与经验

Kaplan 论文的经验观察

Kaplan et al. 的 Scaling Laws 论文是该领域最全面的参考文献之一。其核心经验发现是:在 log-log 图上,测试损失与计算量、数据量、参数量之间呈线性关系——即存在幂律关系。

Kaplan et al.:计算、数据量、参数量与测试损失的幂律关系

来源:Slides 第8页。

幂律关系的数学表达

当在 log-log 图上观察到线性关系时,意味着:

\[ \log L = -\alpha \log X + c \]

\(L = c' \cdot X^{-\alpha}\),其中 \(L\) 是测试损失,\(X\) 是资源量(数据/参数/计算),\(\alpha > 0\) 是缩放指数。

一个重要的细微之处是:当我们单独缩放某个变量(如数据量)时,其他变量必须足够大,以避免进入渐近饱和区域。例如,研究数据缩放时,模型尺寸必须大到不会被数据“填满”。

为什么幂律衰减是自然的?——均值估计

Tatsu 从最简单的统计问题出发,解释为什么幂律衰减是“自然的”。

例子 1:估计高斯均值

给定 \(n\) 个独立同分布样本 \(X_1, \ldots, X_n \sim \mathcal{N}(\mu, \sigma^2)\),用样本均值 \(\hat{\mu} = \frac{1}{n}\sum X_i\) 估计 \(\mu\)

估计误差为:

\[ \mathbb{E}[(\hat{\mu} - \mu)^2] = \frac{\sigma^2}{n} \]

取对数后:

\[ \log(\text{Error}) = 2\log\sigma - \log n \]

均值估计的 Scaling Law:误差以 \(n^-1\) 的速率衰减

来源:Slides 第10页。

这就是最简单的 Scaling Law:在 log-log 图上斜率为 \(-1\)

为什么实际观测到的指数很小?——非参数回归与维度诅咒

然而,实际观察到的缩放指数远小于理论预期。例如:

  • 机器翻译(Hestness):\(\alpha = 0.13\)
  • 语音识别(Hestness):\(\alpha = 0.3\)
  • 语言建模(Kaplan):\(\alpha \approx 0.095\)

这些指数远远慢于简单估计问题的 \(\alpha = 1\)\(\alpha = 0.5\)。为什么?

实际观测的缩放指数远小于经典理论预期

来源:Slides 第11页。

例子 2:非参数回归与维度诅咒

考虑在二维空间中估计任意回归函数 \(f\)。最简单的方法是将空间切分成小方块,在每个方块内取均值。

非参数回归的直觉:将空间切分成小方块,在每个方块内进行均值估计

来源:Slides 第12页。

如果有 \(n\) 个样本在 \(d\) 维空间中:

  • 将空间切成 \(n^{1/2}\) 个方块(二维)\(\rightarrow\) 每个方块分到 \(n^{1/2}\) 个样本 \(\rightarrow\) 误差 \(\sim n^{-1/2}\)
  • 推广到 \(d\) 维:误差 \(\sim n^{-1/d}\)
\[ \text{Error} \sim n^{-1/d} \]

在 log-log 图上,斜率为 \(-1/d\)

缩放指数反映内在维度

缩放指数 \(\alpha = 1/d\) 直接与数据的内在维度(intrinsic dimensionality)相关。语言建模的缩放指数 \(\alpha \approx 0.095\) 意味着学习任务的有效维度大约为 \(d \approx 10.5\)。换言之,缩放越慢,说明任务越“复杂”(有效维度越高)。

内在维度与缩放指数的理论和经验对比

来源:Slides 第13页。

内在维度估计的困难

虽然理论上缩放指数与内在维度密切相关,但直接估计数据的内在维度是一个极其困难的问题——其难度与建模数据本身相当。因此,这种对应关系更多是概念性的,不应过度解读。

数据 Scaling Laws 的实用价值

数据 Scaling Laws 不仅仅是理论上的优美结论,它还有重要的工程应用。

数据组成只影响偏移量不影响斜率——可在小规模上做数据选择

来源:Slides 第14页。

应用 1:数据混合优化

Kaplan 发现数据组成(如 Wikipedia vs. Common Crawl 的比例)只影响 Scaling Law 的偏移量,不影响斜率。这意味着你可以在小模型上做数据选择实验,结论直接迁移到大模型。

应用 2:多轮训练的衰减

多 Epoch 训练的有效样本量递减:约 4 个 epoch 后收益急剧下降

来源:Slides 第15页。

“我们快要用完互联网数据了”的担忧引出了另一个重要问题:重复训练同一批数据的效果如何?研究表明存在一个有效样本量的概念:约 4 个 epoch 之后,重复数据的收益急剧递减。

应用 3:重复高质量数据 vs. 引入低质量新数据

数据重复 vs. 引入新数据的权衡

来源:Slides 第16页。

当你需要数万亿 token 进行训练时,面临选择:是重复 Wikipedia 等高质量数据 10 次,还是引入更多低质量但全新的数据?CMU 的研究者们利用 Scaling Laws 框架来分析这种权衡——假设每种数据源都有独立的幂律关系,通过在小规模上拟合每种混合比例的 Scaling Law,就能预测大规模下的最优混合策略。

本章小结

数据 Scaling Laws 是所有 Scaling Laws 中最直观、理论基础最扎实的。幂律衰减可以从简单的统计问题中自然推导出来,而实际观测到的缓慢指数反映了学习任务的内在复杂度。这些规律不仅在经验上极其稳健(跨领域、跨模型族成立),还有重要的工程应用价值。

模型 Scaling:架构与超参数选择

从数据 Scaling 转向模型 Scaling,我们面临的是更实际的工程问题:哪种架构更好?用什么优化器?深度和宽度怎么配比?

架构比较:Transformer vs. LSTM

Kaplan:Transformer vs. LSTM 的 Scaling Law 对比

来源:Slides 第18页。

Kaplan 的论文清楚地展示了 Transformer 与 LSTM 在 Scaling Law 上的差异。关键观察:

  • 两种架构的 Scaling Law 斜率相似(即缩放行为类似)
  • 但存在一个常数因子的偏移:LSTM 在计算效率上比 Transformer 差约 15 倍
  • 这个差距在 log 尺度上是恒定的,不会随着规模扩大而缩小

Scaling Law 视角下的架构选择

Scaling Law 提供了一种优雅的架构选择方法:训练多种架构的小模型,跨几个数量级的计算量,然后比较它们的 Scaling 曲线。斜率告诉你两种架构的“缩放效率”是否相同;偏移量告诉你在固定计算量下哪个更好。

更广泛的架构比较

多种架构与 Transformer 的 Scaling 对比(Elhage et al., Google)

来源:Slides 第19页。

Google 的研究者对大量架构进行了系统性的 Scaling 比较。红线代表各种替代架构,绿线代表 Transformer 基线。结果表明:

能可靠超越 Transformer 的改进

在所有测试的架构变体中,只有两类改进能强且可靠地超越标准 Transformer:

  1. Gated Linear Units (GLU):门控线性单元
  2. Mixture of Experts (MoE):专家混合模型

这恰好就是当今前沿模型(如 LLaMA、Gemini)中实际使用的技术。Scaling Laws 在几年前就给出了正确的方向指引。

优化器选择:Adam vs. SGD

Adam vs. SGD 的 Scaling Law 对比(来自 Hestness et al.)

来源:Slides 第20页。

类似的分析可以应用于优化器选择。Hestness 等人比较了 SGD 和 Adam 优化器,发现二者之间也存在常数因子的计算效率差距,Adam 在相同计算量下能达到更低的损失。

深度 vs. 宽度:Aspect Ratio

Kaplan:不同层数的 Scaling Law 对比

来源:Slides 第21页。

Kaplan 论文中关于深度与宽度比例的分析很有意思:

  • 1 层的模型明显很差
  • 但从 2 层开始,不同层数的 Scaling 曲线非常接近
  • 存在一个“很宽的最优盆地”:宽度/深度比在 4--16 之间都接近最优

不是所有参数都相同

在做参数缩放分析时,一个容易犯的错误是将 embedding 层参数也计入总参数量。Kaplan 发现:

  • 如果包含 embedding 参数,Scaling 曲线会在某处“弯曲”,不再保持清晰的 log-log 线性
  • 如果只考虑非 embedding 参数,曲线干净得多

原因是 embedding 层参数与 Transformer 层参数的“学习效率”不同。类似的问题也出现在 Mixture of Experts 中——稀疏激活的参数需要转换为“等效密集参数”。

Embedding 参数 vs. 非 Embedding 参数:后者的 Scaling 更干净

来源:Slides 第22页。

超参数的跨尺度迁移

Kaplan 论文中的超参数 Scaling 分析:Aspect Ratio、前馈层维度比、注意力头维度

来源:Slides 第23页。

一个关键发现是:许多 Scaling Law 曲线在不同超参数设定下斜率相同、不交叉,只有常数偏移。这意味着:

超参数选择可以在小规模完成

如果 Scaling 曲线对于不同超参数值只有常数偏移(斜率相同、不交叉),那么在任意一个计算尺度上选择最优超参数,结论就能迁移到所有更大的尺度。这大大降低了超参数搜索的成本。

Kaplan 论文对多种超参数进行了这样的分析:Aspect Ratio(宽度/深度比)在不同规模的模型上表现一致;Feed-forward 维度比和注意力头维度也表现出类似的跨尺度稳定性。

本章小结

模型 Scaling Laws 为工程决策提供了强大的工具:通过在小规模上系统比较不同架构、优化器和超参数,可以可靠地预测大规模下的最优选择。关键洞察是大多数设计选择在 Scaling Law 中表现为常数偏移,使得小规模实验的结论可以直接迁移。

批量大小与学习率的 Scaling

Critical Batch Size

批量大小(batch size)是一个同时涉及系统效率和优化效率的超参数。

批量大小的收益递减效应

来源:Slides 第25页。

批量大小的关键行为分为两个阶段:

  1. 完美缩放阶段:当 batch size $< $ noise scale(梯度噪声尺度),增大 batch size 几乎等效于增加梯度步数——这是最理想的状态,因为并行化带来了真正的加速
  2. 收益递减阶段:当 batch size \(>\) noise scale,额外的样本不再有效减少噪声,性能改善被优化景观的曲率限制

Critical Batch Size 就是这两个阶段之间的转折点。

Critical Batch Size 随目标损失的变化:损失越低,可用的 batch size 越大

来源:Slides 第26页。

一个非常有趣的发现是:目标损失越低,Critical Batch Size 越大。直觉是:当你追求更低的损失时,模型处于更“精细”的优化区域,梯度噪声的影响更大,因此需要更大的 batch size 来去噪。

LLaMA 3 的 Batch Size 策略

LLaMA 3 训练报告中实际采用了“逐步增大 batch size”的策略。这正是基于 Critical Batch Size 随目标损失变化的洞察:训练初期(损失高)用较小 batch size,训练后期(损失低)增大 batch size,兼顾优化效率和系统效率。

Batch Size 与 Compute 的关系

Kaplan:随计算量增加,最优 batch size 增大但步数可保持不变

来源:Slides 第27页。

Kaplan 的分析表明:随着计算预算增大,最优 batch size 也增大,但总训练步数可以基本保持不变。这对数据并行系统来说是好消息——意味着可以通过增加 GPU 数量(增大 batch size)而不是增加训练时间来利用更多计算资源。

学习率 Scaling 与 MuP

学习率是另一个与模型规模紧密相关的超参数。

标准做法 vs. MuP:学习率随模型宽度的变化

来源:Slides 第28页。

标准做法下,最优学习率随模型宽度增大而递减。经验法则是学习率 \(\propto 1/\text{width}\)。这意味着每次改变模型大小都需要重新搜索最优学习率。

MuP(Maximal Update Parameterization) 提供了一种更优雅的解决方案:通过重新参数化模型——调整不同层的初始化方差和学习率缩放,使得最优学习率在不同宽度下保持不变

MuP 的核心思想

MuP 通过以下方式重新参数化模型:

  • 根据模型宽度缩放每层的初始化方差
  • 根据模型宽度缩放每层的学习率
  • 在前向传播中乘以宽度相关的缩放因子

效果是:在最小模型上调好的学习率,直接迁移到最大模型,无需重新搜索。

MuP 的行业采用

Meta 在发布 LLaMA 4 时声称使用了一种叫做 “MetaP” 的类似技术。越来越多的实验室认识到,如果不得不依赖预测最优学习率的 Scaling Law 拟合,那么拟合误差可能导致次优结果。通过 MuP 这样的重新参数化,可以从根本上避免这个问题。

本章小结

Batch size 和学习率是两个与模型规模高度耦合的超参数。Critical Batch Size 的概念提供了一个理解“何时可以安全增大 batch size”的框架。MuP 等重新参数化方法则从根本上解决了学习率跨尺度迁移的问题。在实践中,许多前沿实验室已经采用了这些技术来优化训练流程。

Scaling Laws 的局限性

训练损失 vs. 下游任务

困惑度 Scaling 很好,但下游任务 Scaling 差异巨大

来源:Slides 第30页。

Scaling Laws 在训练损失(交叉熵/困惑度)上表现极好,但在下游任务上的预测能力差得多。

困惑度 \(≠\) 下游性能

左图显示:不同架构和超参数的模型,其参数量与负对数困惑度几乎完美线性相关——意味着“只要计算量够,什么配置都差不多”。

但右图显示了完全不同的情况:在下游任务(如 SuperGLUE)上,不同架构之间存在显著差异,某些模型远好于其他模型。

不要将困惑度的 Scaling 等同于下游能力的 Scaling!

这一现象在 State Space Models 上也有体现:SSM 在困惑度上可以与 Transformer 匹配甚至超越,但在 in-context learning 和 QA 等能力上可能明显落后。

反缩放与分布外行为

还有一类被称为“反缩放”(inverse scaling)的现象:模型变大后某些行为反而变差。例如,更大的模型更擅长复制训练数据中的模式,因此如果你希望抑制复制行为,这会变得更困难。

反缩放的本质

反缩放通常出现在分布外(out-of-distribution)区域:当期望的行为与训练数据不一致时,更大的模型更倾向于遵循训练数据的模式,而非人类期望的行为。从某种意义上说,这是经典深度学习鲁棒性问题在大模型时代的延伸。

本章小结

Scaling Laws 最可靠的预测对象是训练损失(如交叉熵、困惑度),而非下游任务性能。在使用 Scaling Laws 做工程决策时,需要清楚地区分这两者。对于需要特定能力的应用场景,单独验证是必不可少的。

联合数据–模型 Scaling Laws 与 Chinchilla

联合 Scaling 的动机

前面我们讨论的 Scaling Laws 都是单变量的:固定其他变量,只看一个变量(数据、参数或计算)对损失的影响。但在实际训练中,计算预算是固定的,你需要决定如何在模型大小和数据量之间分配。

核心问题:给定固定计算预算,模型应该多大?数据应该多少?

来源:Slides 第33页。

两个极端都不好:

  • 极小模型 + 海量数据 \(\rightarrow\) 模型容量不足,数据被浪费
  • 极大模型 + 极少数据 \(\rightarrow\) 严重过拟合,计算被浪费

联合 Scaling Law 的函数形式

Rosenfeld 和 Kaplan 的联合 Scaling Law 函数形式

来源:Slides 第34页。

Rosenfeld et al. 提出的函数形式:

\[ L(N, D) = \left(\frac{N_c}{N}\right)^{\alpha_N} + \left(\frac{D_c}{D}\right)^{\alpha_D} + \epsilon_\infty \]

其中 \(N\) 是参数量,\(D\) 是数据量(token 数),\(\epsilon_\infty\) 是不可约误差。每项分别描述了模型容量不足(\(N\) 项)和数据不足(\(D\) 项)带来的误差。

Kaplan et al. 使用了类似但稍有不同的形式(聚焦于可约误差而非不可约误差)。

Rosenfeld 的 3D Scaling Law 拟合:数据量 \(×\) 模型大小 \(×\) 损失

来源:Slides 第35页。

令人惊讶的拟合精度

尽管联合 Scaling Law 的函数形式是“凭经验拍脑袋”(ad hoc)的,但它对实际训练结果的拟合几乎完美。Rosenfeld 展示了只用小模型+少数据拟合的 Scaling Law,可以非常准确地外推到大模型+多数据的区域。

Rosenfeld:用小规模训练结果准确外推大规模性能

来源:Slides 第36页。

Kaplan 的固定计算预算分析

Kaplan:固定计算量下,参数量与损失的关系(不同颜色代表不同计算量)

来源:Slides 第37页。

在 Kaplan 的论文中,固定计算量(颜色编码),变化参数量(x轴),可以看到每条等计算曲线上都有一个最优点——对应着在该计算预算下的最优模型大小。

然而,Kaplan 的最优估计后来被发现有较大偏差。原因之一是学习率 schedule 的影响(cosine schedule 不能被提前截断),导致在不同计算预算下比较模型时引入了系统性偏差。

Chinchilla:三种方法

Chinchilla 论文(Hoffmann et al., Google DeepMind)是确定最优数据/模型比例的权威参考。

Chinchilla 三种方法的估计以及与 Kaplan 的对比

来源:Slides 第39页。

方法 参数 Scaling 指数 \(a\) 数据 Scaling 指数 \(b\)
Chinchilla 方法 1 0.50 0.50
Chinchilla 方法 2 0.50 0.50
Chinchilla 方法 3 0.46 0.54
Kaplan et al. 0.73 0.27
不同方法估计的 Scaling 指数:$N_opt C^a$, $D_opt C^b$

方法 1:最小包络法

Chinchilla 方法 1:取训练曲线的下包络,找出每个计算预算下的最优模型

来源:Slides 第40页。

在所有不同大小的模型训练曲线上,取下包络线(lower envelope)——即对于每个 FLOP 值,选择达到最低损失的那个模型。然后分析这些最优点的参数量和 token 数如何随 FLOP 缩放。

方法 2:IsoFLOP 分析

Chinchilla 方法 2(IsoFLOP):固定计算量,扫描模型大小,找最优点

来源:Slides 第42页。

IsoFLOP 分析——最规范的方法

IsoFLOP 分析可能是最直观、最规范的 Chinchilla 方法:

  1. 选择多个计算尺度(每种颜色代表一个固定的 FLOP 预算)
  2. 在每个尺度上,训练不同大小的模型(小模型+多数据 到 大模型+少数据)
  3. 找到每条等 FLOP 曲线的最小值点
  4. 分析最小值点如何随 FLOP 缩放 \(\rightarrow\) 得到最优参数量和最优 token 数的缩放关系

IsoFLOP 分析的结果:最优参数量和最优 token 数与 FLOP 的关系

来源:Slides 第43页。

方法 1 和方法 2 给出了高度一致的结果:对于 Chinchilla 的训练预算,最优模型约 63--67B 参数。

方法 3:参数化曲面拟合

Chinchilla 方法 3:拟合参数化 Scaling Law 曲面

来源:Slides 第44页。

方法 3 是直接拟合 Rosenfeld 式的联合 Scaling Law 函数。训练大量模型(不同参数量 \(\times\) 不同数据量),拟合 3D 曲面,然后求最优。但这个方法的拟合质量明显不如前两种。

Chinchilla 方法 3 的曲线拟合 bug

Epoch AI 的研究者在 2024 年试图复现 Chinchilla 方法 3 的结果。由于无法获取原始数据,他们甚至用“图表取值器”从论文图表中提取数据点。结果发现:

  • 原始论文的残差不是零均值的——这是曲线拟合有问题的标志
  • 修正拟合后,方法 3 的估计与方法 1、2 几乎完全一致
  • 即原始结果是正确的,只是拟合过程中有小错误

这是一个“复现反而证实了原始结论”的罕见案例。

Chinchilla 比例与 Cosine Schedule 的陷阱

Cosine 学习率 Schedule 的陷阱

来源:Slides 第45页。

Kaplan 估计偏差较大的一个重要原因是 cosine learning rate schedule 不能提前截断

Cosine Schedule 的不可截断性

Cosine 学习率先升后降,必须完整运行到冷却(cool-down)阶段才能得到有效的模型。如果在中途截断,模型仍处于高学习率状态,性能远差于完整训练的模型。因此,在做 Scaling Law 实验时,每个模型必须用完整的 schedule 训练到底,不能简单地取训练中间的 checkpoint 来做对比。

著名的 Chinchilla 比例约为 20 tokens/parameter。这意味着一个 70B 参数的模型最优应训练 1.4T tokens。

本章小结

联合数据--模型 Scaling Laws 解答了大语言模型训练中最核心的资源分配问题。Chinchilla 的三种分析方法从不同角度收敛到了相似的结论(\(a \approx b \approx 0.5\)),确立了约 20 tokens/parameter 的黄金比例。

从训练最优到推理最优

Chinchilla 比例的局限

Chinchilla 比例回答的是:给定固定训练 FLOP 预算,如何获得最低的训练损失?但这并非企业真正关心的问题。

从训练最优到推理最优:tokens/parameter 比例的演进

来源:Slides 第47页。

当 Chinchilla 和 Kaplan 的论文发表时(2020--2022),LLM 还不是产品,不需要考虑推理成本。但如今 LLM 已经是创收产品,推理成本是核心关切:

训练成本是一次性的,推理成本是持续的

训练一个模型的计算成本只需付一次,但部署后的推理成本随用户使用量持续累积。因此,企业宁愿在训练时多花计算(“过度训练”小模型),也不愿部署一个推理昂贵的大模型。

tokens/parameter 比例的历史演进:

  • GPT-3 (2020):约 2 tokens/parameter(严重“训练不足”)
  • Chinchilla (2022):约 20 tokens/parameter(训练最优)
  • LLaMA 系列 (2023--):100--200 tokens/parameter
  • 最新模型 (2024--2025):可能超过 1000 tokens/parameter(如 Qwen 用 30T tokens 训练 7B 模型)

趋势非常明确:业界正在大幅增加 tokens/parameter 比例,用更多的训练计算换取更小、更便宜的推理模型

Scaling Laws 作为通用工具

Scaling Laws 在文本扩散模型上的应用:同样适用的 IsoFLOP 分析

来源:Slides 第49页。

Tatsu 以自己学生 Isan 的文本扩散模型研究为例,说明 Scaling Laws 的方法论并非局限于自回归 Transformer。即使在一个全新的生成模型家族上:

  • IsoFLOP 分析依然产生清晰的 U 型曲线
  • 最优点依然可靠地遵循幂律 Scaling
  • 不同模型类型之间仅有常数偏移

自回归 vs. 扩散模型:两种完全不同的生成模型均展现清晰的 Scaling 行为

来源:Slides 第50页。

Scaling Laws 的普适性

Scaling Laws 不是针对特定架构或任务的特殊现象,而是深度学习中的一种普遍规律。只要你的模型足够灵活、数据足够多、训练足够长,就很可能观察到幂律缩放行为。这使得 Scaling Law 的方法论成为通用的工程工具

本章小结

Chinchilla 比例(20 tokens/parameter)只是训练最优的起点。在产品化时代,推理成本的重要性使得 tokens/parameter 比例不断增大。同时,Scaling Laws 的方法论作为通用工具,已经被成功应用到扩散模型等全新领域,展现了其普适性。

基于 Scaling Laws 的工程决策流程

Scaling Law 驱动的工程决策流程

来源:Slides 第31页。

综合本讲所有内容,基于 Scaling Laws 的模型开发流程可以总结为:

Scaling Law 驱动的设计流程

  1. 训练小模型:跨越几个数量级的计算量,训练一组小模型
  2. 建立 Scaling Law:验证 log-log 线性关系确实成立
  3. 基于预测设置超参数:利用 Scaling Law 的外推,确定大模型的最优配置

在许多情况下,Scaling 曲线对不同超参数的斜率相同,仅有常数偏移。这意味着你甚至不需要拟合完整的 Scaling Law——只需在任意一个小尺度上选出最优超参数,结论就能直接迁移。

但有一个重要例外:学习率需要特殊处理(通过 MuP 等方法或通过专门的学习率 Scaling Law)。

本章小结

Scaling Law 驱动的工程流程将大模型开发从“试错”转变为“预测+验证”。虽然并非所有决策都能完美迁移(特别是学习率和下游任务性能),但这套方法论大幅降低了探索成本。

总结与延伸

讲者的核心总结

全课总结

来源:Slides 第52页。

Tatsu Hashimoto 在本讲中传达了以下核心信息:

  1. 数据 Scaling 有坚实的理论基础:幂律衰减可以从非参数统计的基本定理中推导出来,缩放指数与数据的内在维度相关
  2. 模型/架构 Scaling 提供了强大的工程工具:通过在小规模上比较不同选择,可以可靠地预测大规模下的最优方案
  3. Chinchilla 确立了资源分配的基本框架:联合数据--模型 Scaling Laws 回答了“给定预算,模型应该多大”的核心问题
  4. 实践已超越 Chinchilla:推理成本的考量使得业界大幅“过度训练”小模型,tokens/parameter 比例从 20 增长到数百甚至数千

全课知识图谱

TikZ diagram

拓展阅读

  • Kaplan et al., Scaling Laws for Neural Language Models: https://arxiv.org/abs/2001.08361 —— Scaling Laws 领域最全面的参考论文
  • Hoffmann et al., Training Compute-Optimal Large Language Models (Chinchilla): https://arxiv.org/abs/2203.15556 —— 确立 20 tokens/parameter 比例的里程碑论文
  • Hestness et al., Deep Learning Scaling is Predictable, Empirically (2017): https://arxiv.org/abs/1712.00409 —— 大规模神经网络 Scaling Law 的早期系统研究
  • Rosenfeld et al., A Constructive Prediction of the Generalization Error Across Scales (2020): https://arxiv.org/abs/1909.12673 —— 联合 Scaling Law 函数形式的重要参考
  • Epoch AI, Chinchilla Scaling: A Replication Attempt (2024): https://epochai.org/blog/chinchilla-scaling-a-replication-attempt —— 对 Chinchilla 方法 3 的复现与修正
  • Yang et al., Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer (MuP): https://arxiv.org/abs/2203.03466 —— 跨尺度学习率迁移的理论与方法
  • Muennighoff et al., Scaling Data-Constrained Language Models: https://arxiv.org/abs/2305.16264 —— 多 Epoch 训练的 Scaling Laws
  • Banko & Brill, Scaling to Very Very Large Corpora for Natural Language Disambiguation (2001) —— 数据缩放的早期 NLP 研究