[CS25] Emergent Abilities and Scaling — Jason Wei, Google

LaTeX 源码

字段	内容
作者/整理	基于公开课程资料整理
来源	Stanford CS25
日期	2023

引言：缩放定律与涌现能力

Jason Wei 来自 Google，介绍了大语言模型中的涌现能力（Emergent Abilities）和缩放（Scaling）研究。这项工作联合了 Google、DeepMind 和 Stanford 的研究者。

缩放定律回顾

Kaplan et al. (2020) 发现，语言模型的测试损失随计算量、数据量和参数量的增加而可预测地下降，呈现幂律关系。但下游任务的性能并不总是平滑提升。

涌现能力的定义与观察

什么是涌现能力？

涌现能力的定义

一种能力被称为“涌现的”（emergent），当且仅当：

在小模型中完全不存在（接近随机水平）
在模型规模达到某个临界点后突然出现
无法通过观察小模型的趋势来预测其出现

这与缩放定律中的平滑改进形成鲜明对比——涌现是非线性的、阶跃式的。

典型的涌现能力

Jason 展示了多个涌现能力的例子：

多步算术：小模型完全无法做，大模型突然可以
逻辑推理：类似的阶跃跳变
代码执行追踪
多语言翻译中的某些语言对

涌现的不可预测性

涌现能力的关键特征是不可预测性——你无法通过训练小模型来判断某个能力需要多大的模型才能涌现。这意味着：

当前模型可能“差一点”就能解决某些任务
也可能还需要几个数量级的规模增长
这对资源规划和安全评估都构成挑战

本章小结

涌现能力是大语言模型最令人惊讶的特性之一，挑战了“平滑缩放”的直觉。

Chain-of-Thought Prompting

思维链的核心思想

Chain-of-Thought (CoT) Prompting

在提示中展示逐步推理过程，而不仅是最终答案。例如：

标准提示：“Roger 有 5 个网球，他又买了 2 筒，每筒 3 个。他现在有多少？答：11”

CoT 提示：“Roger 有 5 个网球，他又买了 2 筒，每筒 3 个。所以他买了 2 \(\times\) 3 = 6 个。5 + 6 = 11。答：11”

关键发现：CoT 只在大模型中有效——这本身就是一种涌现能力。

CoT 的变体

Zero-shot CoT：只需在提示末尾加“Let's think step by step”
Self-consistency：多次采样 CoT 推理，取多数投票
Least-to-most prompting：将复杂问题分解为子问题

本章小结

CoT 是释放大模型推理能力的关键技术，但它本身也是涌现的——小模型无法从中受益。

指令微调（Instruction Tuning）

FLAN 与指令微调

指令微调的效果

在大量不同任务的指令-输出对上微调模型：

显著提升模型在未见过的任务上的 zero-shot 表现
本质上是教会模型“遵循指令”这个元能力
与 CoT 结合（Flan-PaLM）效果更佳

与 fine-tuning 的区别

指令微调 vs. 任务微调

任务微调：在特定任务上训练，提升该任务的性能
指令微调：在多样化的指令上训练，提升所有任务的 zero-shot 性能
关键区别：指令微调的目标是泛化到新指令，而非记住特定任务

本章小结

指令微调使模型从“能做任务”变为“听得懂指令”，是 ChatGPT 等产品背后的关键技术。

如何判断涌现是真现象还是度量伪影

阈值效应与离散指标

涌现能力之所以引发争议，一个重要原因是很多基准使用离散阈值式指标。例如，模型从 49% 提升到 51% 时，可能在图上看起来像“突然学会了”；但如果改用连续指标或更细粒度评测，这种跃迁可能只是平滑曲线的一段。

看到“拐点”时先问评测怎么定义

判断能力是否真的涌现，第一步不是讨论哲学，而是检查指标设计：是否存在 hard threshold、是否存在 few-shot prompt 对小模型极不友好、是否存在数据污染或 benchmark 饱和。如果这些问题没排除，所谓“相变”很可能只是度量方式放大了曲线变化。

为什么研究者仍然重视它

即便存在度量争议，涌现讨论依然有价值，因为它提醒研究者：能力增长并不总是线性可预测。对于产品团队而言，这意味着模型一旦跨过某个能力门槛，prompt、工具、检索和微调策略都可能突然变得更有效。

本章小结

讨论涌现时，既不能把所有拐点都神秘化，也不能忽视规模增长带来的真实能力重组。

从研究结论到产品策略

CoT 与 Instruction Tuning 的组合价值

Jason Wei 的工作可以被压缩成一个非常实用的产品结论：基础模型规模决定能力上限，CoT 决定是否能调用推理，Instruction Tuning 决定用户是否能稳定触发这些能力。三者缺一不可。

一个实用的系统设计顺序

先确认基础模型是否已经跨过目标任务的能力门槛。
再用 prompt / CoT / self-consistency 挖掘推理性能。
最后用 instruction tuning 或 preference tuning 固化交互体验。

不应忽视的数据问题

很多团队在看到 CoT 和 instruction tuning 的成功后，会立即增加更多人工模板或更长的推理示例。但真正决定长期收益的，往往是训练数据是否覆盖了任务多样性、错误示例和边界案例。如果数据过于单一，模型只是学会了某种回答腔调，而非真正提升泛化。

“Scale gives you the possibility of reasoning; the rest of the pipeline decides whether users can actually reach it.”

本章小结

从工程视角看，涌现、CoT 和指令微调并不是三个独立话题，而是一条完整的能力释放链条。

总结与延伸

Jason Wei 的演讲串联了大语言模型研究中的三个核心主题：缩放带来涌现能力、CoT 释放推理能力、指令微调实现通用遵从。这三者共同构成了现代 LLM 的能力基础。

开放问题

涌现能力是真实的相变还是度量的伪影？
如何降低获得涌现能力所需的计算成本？
需要更多更好的基准来评估新涌现的能力

拓展阅读

Wei et al., “Emergent Abilities of Large Language Models,” TMLR 2022
Wei et al., “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,” NeurIPS 2022
Chung et al., “Scaling Instruction-Finetuned Language Models (Flan-PaLM),” 2022
Schaeffer et al., “Are Emergent Abilities of LLMs a Mirage?” NeurIPS 2023