跳转至

[CS25] New Training Objectives — Hyung Won Chung, OpenAI

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于公开课程资料整理
来源 Stanford CS25: Transformers United
日期 Spring 2024

[CS25] New Training Objectives — Hyung Won Chung, OpenAI

引言:从历史中学习未来

Hyung Won Chung 是 OpenAI ChatGPT 团队的研究科学家,此前在 Google Brain 工作。他的代表作包括 Flan-T5/PaLM(大规模指令微调)和 T5X(PaLM 的训练框架)。本讲不讨论具体的新训练目标,而是通过分析 Transformer 架构的历史演变,建立一个“统一视角”来理解和预测 AI 研究的趋势。

核心论点

AI 进步的根本驱动力是指数级增长的计算能力。理解这一驱动力,可以帮助我们看清看似无关的技术事件之间的深层联系,并据此推断未来方向。

指数驱动力:计算能力的增长

摩尔定律与 GPU 革命

计算成本的指数下降

从 1970 年代至今,计算成本以指数速度下降。GPU 的出现进一步加速了这一趋势——NVIDIA GPU 的 FLOPS/$ 每两年翻一番。这种指数增长是 AI 研究所有重大进展的底层驱动力。

规模化与苦涩教训

这一指数驱动力正是 Rich Sutton “苦涩教训”(The Bitter Lesson)的物质基础:能够充分利用更多计算的通用方法(搜索、学习),最终总会超越依赖人类领域知识的方法。

本章小结

理解指数驱动力是建立统一视角的前提。

归纳偏置的生命周期

什么是归纳偏置

归纳偏置 = 计算不足时的捷径

归纳偏置是我们在数据或计算不足时,人为加入模型的结构性假设。例如:

  • 卷积 = “局部性”假设
  • 双向注意力 = “可以看到全部输入”假设
  • 掩码语言模型 = “可以并行训练所有位置”假设

这些假设在资源有限时是有益的捷径,但在资源充足时反而限制了模型的通用性。

添加容易、移除困难

学术界的激励不对称

学术界擅长“添加结构”——提出新的归纳偏置可以发论文。但“移除结构”(证明某个假设已不再需要)缺乏发表激励。这导致许多过时的归纳偏置在研究中存留过久。Chung 呼吁社区更多关注“减法研究”。

本章小结

归纳偏置有其最佳适用期,及时移除与及时添加同样重要。

Encoder-Decoder vs Decoder-Only 的历史分析

原始 Transformer(2017)

原始 Transformer 使用 encoder-decoder 架构用于机器翻译:

  • 编码器\(N\) 层双向自注意力 + 前馈网络
  • 解码器\(N\) 层因果自注意力 + 交叉注意力 + 前馈网络
  • 连接:交叉注意力让解码器关注编码器的输出

BERT 的选择(2018)

BERT 只用编码器 + 双向注意力 + 掩码语言模型(MLM)目标。当时双向注意力确实更强:能看到完整上下文,训练效率高(每个位置独立预测)。

GPT 的选择(2018)

GPT 只用解码器 + 因果注意力 + 自回归目标。当时看起来不如 BERT,但这个选择引入了最少的结构性假设。

为什么 Decoder-Only 最终胜出

统一视角下的分析

  1. 双向注意力是一种归纳偏置——假设可以看到完整输入。在规模较小时有用,但阻止了模型作为通用生成器
  2. 交叉注意力是另一种归纳偏置——假设编码和解码需要不同处理。随规模增大被证明不必要
  3. 掩码语言模型目标假设可以并行预测所有被掩码的位置——这比自回归目标更高效但更受限
  4. KV 缓存:因果注意力天然支持 KV 缓存(已处理的 token 可复用),而双向注意力不支持。这在多轮对话场景中是巨大的工程优势

本章小结

Decoder-only 架构的胜出是“苦涩教训”的又一例证:最少假设 + 最多计算 = 最好结果。

对当前趋势的审视

当前的“捷径”

Chung 认为当前仍有许多“结构性捷径”有待被移除:

  • 低精度训练(FP16/BF16)——虽然有用,但本质上是计算受限时的权宜之计
  • 固定的 tokenizer——人为设计的 token 切分规则可能不是最优的
  • 固定的训练数据配比——可能随模型规模变化而需要调整

硬件协同设计

如果架构足够确定(如 Transformer),可以将其硬编码到芯片中以获得更高效率。当前 GPU “太通用”了——这既是优势也是浪费。

机器辅助的芯片设计

Chung 半开玩笑地预测:AI 很快将在芯片设计方面超越人类。届时,AI 可以帮助设计专门优化 Transformer 推理的硬件,形成“AI 设计 AI 硬件”的正反馈循环。

本章小结

保持“减法思维”——持续审视哪些假设可以被移除——是推动进步的关键心态。

对今天 LLM 系统设计的直接建议

先问什么是必须的,再问什么是方便的

Chung 的“苦涩教训”视角,对今天做 LLM 系统的人有很强的现实意义。很多组件之所以存在,并不是因为它们在长期最优,而是因为它们在当前资源约束下方便、便宜、可控。这并没有错,但团队必须明确:哪些设计是本质需求,哪些只是暂时折中。

一条可执行的架构审查问题

面对任意一个系统组件,都可以问三件事:第一,它是否真正提高了最终能力;第二,它是否只是为绕开当前算力/数据限制;第三,如果未来计算更便宜,它是否仍然值得保留。能经受这三问的设计,才更可能跨越代际演化。

这如何影响模型与产品决策

例如,在应用层大量堆叠 prompt 模板、手工规则和链式路由,也许能快速提升短期效果,但这些结构常常会随着基础模型能力提升而被淘汰。反过来,数据管线、评测体系、推理缓存和服务编排这类基础设施,往往会长期保值,因为它们解决的是系统层问题,而非对模型施加过强假设。

本章小结

苦涩教训不是反对工程技巧,而是要求我们持续区分“长期资产”和“阶段性补丁”。

何时应该保留归纳偏置

偏置不是原罪,而是要有退出条件

这节课很容易被误读为“所有归纳偏置都该删掉”。更准确的理解是:归纳偏置在资源不足、数据有限、上线约束严格时非常有价值,但它们最好带有明确的适用边界和退出条件。如果某个偏置随着算力增长仍持续带来收益,那它就不再只是权宜之计,而可能是稳定的系统结构。

现实中常见的两类健康偏置

  • 安全偏置:权限控制、审计日志、沙箱执行。这些限制不是为了弥补模型能力不足,而是为了降低系统风险。
  • 产品偏置:明确的工作流和交互约束,用来减少用户困惑与误操作。

对研究者的提醒

不要把“通用性”误当作不需要系统设计

即使 decoder-only 模型赢得了主流,也不代表所有任务都该用同一套最小假设直接硬做。真正的经验是:尽量把偏置放在系统层和数据层,而不是过早固化在模型结构里。

本章小结

最健康的做法不是迷信无偏,也不是迷信结构,而是在技术进步过程中不断重新验证哪些假设仍然值得保留。

总结与延伸

本讲通过历史分析建立了一个强大的思维框架:(1) AI 进步由计算能力的指数增长驱动;(2) 归纳偏置是资源不足时的权宜之计;(3) 随着资源增加,应系统地移除不必要的假设;(4) 最简单、最通用的方法在长期内总会胜出。这一框架不仅解释了过去,也为思考未来提供了指导。

拓展阅读

  • Sutton, “The Bitter Lesson”, 2019
  • Vaswani et al., “Attention Is All You Need”, 2017
  • Devlin et al., “BERT: Pre-training of Deep Bidirectional Transformers”, 2019
  • Chung et al., “Scaling Instruction-Finetuned Language Models”, 2022