[CS25] New Training Objectives — Hyung Won Chung, OpenAI

LaTeX 源码

字段	内容
作者/整理	基于公开课程资料整理
来源	Stanford CS25: Transformers United
日期	Spring 2024

引言：从历史中学习未来

Hyung Won Chung 是 OpenAI ChatGPT 团队的研究科学家，此前在 Google Brain 工作。他的代表作包括 Flan-T5/PaLM（大规模指令微调）和 T5X（PaLM 的训练框架）。本讲不讨论具体的新训练目标，而是通过分析 Transformer 架构的历史演变，建立一个“统一视角”来理解和预测 AI 研究的趋势。

核心论点

AI 进步的根本驱动力是指数级增长的计算能力。理解这一驱动力，可以帮助我们看清看似无关的技术事件之间的深层联系，并据此推断未来方向。

指数驱动力：计算能力的增长

摩尔定律与 GPU 革命

计算成本的指数下降

从 1970 年代至今，计算成本以指数速度下降。GPU 的出现进一步加速了这一趋势——NVIDIA GPU 的 FLOPS/$ 每两年翻一番。这种指数增长是 AI 研究所有重大进展的底层驱动力。

规模化与苦涩教训

这一指数驱动力正是 Rich Sutton “苦涩教训”（The Bitter Lesson）的物质基础：能够充分利用更多计算的通用方法（搜索、学习），最终总会超越依赖人类领域知识的方法。

本章小结

理解指数驱动力是建立统一视角的前提。

归纳偏置的生命周期

什么是归纳偏置

归纳偏置 = 计算不足时的捷径

归纳偏置是我们在数据或计算不足时，人为加入模型的结构性假设。例如：

卷积 = “局部性”假设
双向注意力 = “可以看到全部输入”假设
掩码语言模型 = “可以并行训练所有位置”假设

这些假设在资源有限时是有益的捷径，但在资源充足时反而限制了模型的通用性。

添加容易、移除困难

学术界的激励不对称

学术界擅长“添加结构”——提出新的归纳偏置可以发论文。但“移除结构”（证明某个假设已不再需要）缺乏发表激励。这导致许多过时的归纳偏置在研究中存留过久。Chung 呼吁社区更多关注“减法研究”。

本章小结

归纳偏置有其最佳适用期，及时移除与及时添加同样重要。

Encoder-Decoder vs Decoder-Only 的历史分析

原始 Transformer（2017）

原始 Transformer 使用 encoder-decoder 架构用于机器翻译：

编码器：$N$ 层双向自注意力 + 前馈网络
解码器：$N$ 层因果自注意力 + 交叉注意力 + 前馈网络
连接：交叉注意力让解码器关注编码器的输出

BERT 的选择（2018）

BERT 只用编码器 + 双向注意力 + 掩码语言模型（MLM）目标。当时双向注意力确实更强：能看到完整上下文，训练效率高（每个位置独立预测）。

GPT 的选择（2018）

GPT 只用解码器 + 因果注意力 + 自回归目标。当时看起来不如 BERT，但这个选择引入了最少的结构性假设。

为什么 Decoder-Only 最终胜出

统一视角下的分析

双向注意力是一种归纳偏置——假设可以看到完整输入。在规模较小时有用，但阻止了模型作为通用生成器
交叉注意力是另一种归纳偏置——假设编码和解码需要不同处理。随规模增大被证明不必要
掩码语言模型目标假设可以并行预测所有被掩码的位置——这比自回归目标更高效但更受限
KV 缓存：因果注意力天然支持 KV 缓存（已处理的 token 可复用），而双向注意力不支持。这在多轮对话场景中是巨大的工程优势

本章小结

Decoder-only 架构的胜出是“苦涩教训”的又一例证：最少假设 + 最多计算 = 最好结果。

对当前趋势的审视

当前的“捷径”

Chung 认为当前仍有许多“结构性捷径”有待被移除：

低精度训练（FP16/BF16）——虽然有用，但本质上是计算受限时的权宜之计
固定的 tokenizer——人为设计的 token 切分规则可能不是最优的
固定的训练数据配比——可能随模型规模变化而需要调整

硬件协同设计

如果架构足够确定（如 Transformer），可以将其硬编码到芯片中以获得更高效率。当前 GPU “太通用”了——这既是优势也是浪费。

机器辅助的芯片设计

Chung 半开玩笑地预测：AI 很快将在芯片设计方面超越人类。届时，AI 可以帮助设计专门优化 Transformer 推理的硬件，形成“AI 设计 AI 硬件”的正反馈循环。

本章小结

保持“减法思维”——持续审视哪些假设可以被移除——是推动进步的关键心态。

对今天 LLM 系统设计的直接建议

先问什么是必须的，再问什么是方便的

Chung 的“苦涩教训”视角，对今天做 LLM 系统的人有很强的现实意义。很多组件之所以存在，并不是因为它们在长期最优，而是因为它们在当前资源约束下方便、便宜、可控。这并没有错，但团队必须明确：哪些设计是本质需求，哪些只是暂时折中。

一条可执行的架构审查问题

面对任意一个系统组件，都可以问三件事：第一，它是否真正提高了最终能力；第二，它是否只是为绕开当前算力/数据限制；第三，如果未来计算更便宜，它是否仍然值得保留。能经受这三问的设计，才更可能跨越代际演化。

这如何影响模型与产品决策

例如，在应用层大量堆叠 prompt 模板、手工规则和链式路由，也许能快速提升短期效果，但这些结构常常会随着基础模型能力提升而被淘汰。反过来，数据管线、评测体系、推理缓存和服务编排这类基础设施，往往会长期保值，因为它们解决的是系统层问题，而非对模型施加过强假设。

本章小结

苦涩教训不是反对工程技巧，而是要求我们持续区分“长期资产”和“阶段性补丁”。

何时应该保留归纳偏置

偏置不是原罪，而是要有退出条件

这节课很容易被误读为“所有归纳偏置都该删掉”。更准确的理解是：归纳偏置在资源不足、数据有限、上线约束严格时非常有价值，但它们最好带有明确的适用边界和退出条件。如果某个偏置随着算力增长仍持续带来收益，那它就不再只是权宜之计，而可能是稳定的系统结构。

现实中常见的两类健康偏置

安全偏置：权限控制、审计日志、沙箱执行。这些限制不是为了弥补模型能力不足，而是为了降低系统风险。
产品偏置：明确的工作流和交互约束，用来减少用户困惑与误操作。

对研究者的提醒

不要把“通用性”误当作不需要系统设计

即使 decoder-only 模型赢得了主流，也不代表所有任务都该用同一套最小假设直接硬做。真正的经验是：尽量把偏置放在系统层和数据层，而不是过早固化在模型结构里。

本章小结

最健康的做法不是迷信无偏，也不是迷信结构，而是在技术进步过程中不断重新验证哪些假设仍然值得保留。

总结与延伸

本讲通过历史分析建立了一个强大的思维框架：(1) AI 进步由计算能力的指数增长驱动；(2) 归纳偏置是资源不足时的权宜之计；(3) 随着资源增加，应系统地移除不必要的假设；(4) 最简单、最通用的方法在长期内总会胜出。这一框架不仅解释了过去，也为思考未来提供了指导。

拓展阅读

Sutton, “The Bitter Lesson”, 2019
Vaswani et al., “Attention Is All You Need”, 2017
Devlin et al., “BERT: Pre-training of Deep Bidirectional Transformers”, 2019
Chung et al., “Scaling Instruction-Finetuned Language Models”, 2022