跳转至

[CS25] Emergent Abilities and Scaling — Jason Wei, Google

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于公开课程资料整理
来源 Stanford CS25
日期 2023

[CS25] Emergent Abilities and Scaling — Jason Wei, Google

引言:缩放定律与涌现能力

Jason Wei 来自 Google,介绍了大语言模型中的涌现能力(Emergent Abilities)和缩放(Scaling)研究。这项工作联合了 Google、DeepMind 和 Stanford 的研究者。

缩放定律回顾

Kaplan et al. (2020) 发现,语言模型的测试损失随计算量、数据量和参数量的增加而可预测地下降,呈现幂律关系。但下游任务的性能并不总是平滑提升。

涌现能力的定义与观察

什么是涌现能力?

涌现能力的定义

一种能力被称为“涌现的”(emergent),当且仅当:

  • 小模型中完全不存在(接近随机水平)
  • 在模型规模达到某个临界点后突然出现
  • 无法通过观察小模型的趋势来预测其出现

这与缩放定律中的平滑改进形成鲜明对比——涌现是非线性的、阶跃式的

典型的涌现能力

Jason 展示了多个涌现能力的例子:

  • 多步算术:小模型完全无法做,大模型突然可以
  • 逻辑推理:类似的阶跃跳变
  • 代码执行追踪
  • 多语言翻译中的某些语言对

涌现的不可预测性

涌现能力的关键特征是不可预测性——你无法通过训练小模型来判断某个能力需要多大的模型才能涌现。这意味着:

  • 当前模型可能“差一点”就能解决某些任务
  • 也可能还需要几个数量级的规模增长
  • 这对资源规划和安全评估都构成挑战

本章小结

涌现能力是大语言模型最令人惊讶的特性之一,挑战了“平滑缩放”的直觉。

Chain-of-Thought Prompting

思维链的核心思想

Chain-of-Thought (CoT) Prompting

在提示中展示逐步推理过程,而不仅是最终答案。例如:

标准提示:“Roger 有 5 个网球,他又买了 2 筒,每筒 3 个。他现在有多少?答:11”

CoT 提示:“Roger 有 5 个网球,他又买了 2 筒,每筒 3 个。所以他买了 2 \(\times\) 3 = 6 个。5 + 6 = 11。答:11”

关键发现:CoT 只在大模型中有效——这本身就是一种涌现能力。

CoT 的变体

  • Zero-shot CoT:只需在提示末尾加“Let's think step by step”
  • Self-consistency:多次采样 CoT 推理,取多数投票
  • Least-to-most prompting:将复杂问题分解为子问题

本章小结

CoT 是释放大模型推理能力的关键技术,但它本身也是涌现的——小模型无法从中受益。

指令微调(Instruction Tuning)

FLAN 与指令微调

指令微调的效果

在大量不同任务的指令-输出对上微调模型:

  • 显著提升模型在未见过的任务上的 zero-shot 表现
  • 本质上是教会模型“遵循指令”这个元能力
  • 与 CoT 结合(Flan-PaLM)效果更佳

与 fine-tuning 的区别

指令微调 vs. 任务微调

  • 任务微调:在特定任务上训练,提升该任务的性能
  • 指令微调:在多样化的指令上训练,提升所有任务的 zero-shot 性能
  • 关键区别:指令微调的目标是泛化到新指令,而非记住特定任务

本章小结

指令微调使模型从“能做任务”变为“听得懂指令”,是 ChatGPT 等产品背后的关键技术。

如何判断涌现是真现象还是度量伪影

阈值效应与离散指标

涌现能力之所以引发争议,一个重要原因是很多基准使用离散阈值式指标。例如,模型从 49% 提升到 51% 时,可能在图上看起来像“突然学会了”;但如果改用连续指标或更细粒度评测,这种跃迁可能只是平滑曲线的一段。

看到“拐点”时先问评测怎么定义

判断能力是否真的涌现,第一步不是讨论哲学,而是检查指标设计:是否存在 hard threshold、是否存在 few-shot prompt 对小模型极不友好、是否存在数据污染或 benchmark 饱和。如果这些问题没排除,所谓“相变”很可能只是度量方式放大了曲线变化。

为什么研究者仍然重视它

即便存在度量争议,涌现讨论依然有价值,因为它提醒研究者:能力增长并不总是线性可预测。对于产品团队而言,这意味着模型一旦跨过某个能力门槛,prompt、工具、检索和微调策略都可能突然变得更有效。

本章小结

讨论涌现时,既不能把所有拐点都神秘化,也不能忽视规模增长带来的真实能力重组。

从研究结论到产品策略

CoT 与 Instruction Tuning 的组合价值

Jason Wei 的工作可以被压缩成一个非常实用的产品结论:基础模型规模决定能力上限,CoT 决定是否能调用推理,Instruction Tuning 决定用户是否能稳定触发这些能力。三者缺一不可。

一个实用的系统设计顺序

  1. 先确认基础模型是否已经跨过目标任务的能力门槛。
  2. 再用 prompt / CoT / self-consistency 挖掘推理性能。
  3. 最后用 instruction tuning 或 preference tuning 固化交互体验。

不应忽视的数据问题

很多团队在看到 CoT 和 instruction tuning 的成功后,会立即增加更多人工模板或更长的推理示例。但真正决定长期收益的,往往是训练数据是否覆盖了任务多样性、错误示例和边界案例。如果数据过于单一,模型只是学会了某种回答腔调,而非真正提升泛化。

“Scale gives you the possibility of reasoning; the rest of the pipeline decides whether users can actually reach it.”

本章小结

从工程视角看,涌现、CoT 和指令微调并不是三个独立话题,而是一条完整的能力释放链条。

总结与延伸

Jason Wei 的演讲串联了大语言模型研究中的三个核心主题:缩放带来涌现能力、CoT 释放推理能力、指令微调实现通用遵从。这三者共同构成了现代 LLM 的能力基础。

开放问题

  • 涌现能力是真实的相变还是度量的伪影?
  • 如何降低获得涌现能力所需的计算成本?
  • 需要更多更好的基准来评估新涌现的能力

拓展阅读

  • Wei et al., “Emergent Abilities of Large Language Models,” TMLR 2022
  • Wei et al., “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,” NeurIPS 2022
  • Chung et al., “Scaling Instruction-Finetuned Language Models (Flan-PaLM),” 2022
  • Schaeffer et al., “Are Emergent Abilities of LLMs a Mirage?” NeurIPS 2023