[CS25] New Training Objectives — Hyung Won Chung, OpenAI
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | Stanford CS25: Transformers United |
| 日期 | Spring 2024 |
![[CS25] New Training Objectives — Hyung Won Chung, OpenAI](cover.jpg)
引言:从历史中学习未来
Hyung Won Chung 是 OpenAI ChatGPT 团队的研究科学家,此前在 Google Brain 工作。他的代表作包括 Flan-T5/PaLM(大规模指令微调)和 T5X(PaLM 的训练框架)。本讲不讨论具体的新训练目标,而是通过分析 Transformer 架构的历史演变,建立一个“统一视角”来理解和预测 AI 研究的趋势。
核心论点
AI 进步的根本驱动力是指数级增长的计算能力。理解这一驱动力,可以帮助我们看清看似无关的技术事件之间的深层联系,并据此推断未来方向。
指数驱动力:计算能力的增长
摩尔定律与 GPU 革命
计算成本的指数下降
从 1970 年代至今,计算成本以指数速度下降。GPU 的出现进一步加速了这一趋势——NVIDIA GPU 的 FLOPS/$ 每两年翻一番。这种指数增长是 AI 研究所有重大进展的底层驱动力。
规模化与苦涩教训
这一指数驱动力正是 Rich Sutton “苦涩教训”(The Bitter Lesson)的物质基础:能够充分利用更多计算的通用方法(搜索、学习),最终总会超越依赖人类领域知识的方法。
本章小结
理解指数驱动力是建立统一视角的前提。
归纳偏置的生命周期
什么是归纳偏置
归纳偏置 = 计算不足时的捷径
归纳偏置是我们在数据或计算不足时,人为加入模型的结构性假设。例如:
- 卷积 = “局部性”假设
- 双向注意力 = “可以看到全部输入”假设
- 掩码语言模型 = “可以并行训练所有位置”假设
这些假设在资源有限时是有益的捷径,但在资源充足时反而限制了模型的通用性。
添加容易、移除困难
学术界的激励不对称
学术界擅长“添加结构”——提出新的归纳偏置可以发论文。但“移除结构”(证明某个假设已不再需要)缺乏发表激励。这导致许多过时的归纳偏置在研究中存留过久。Chung 呼吁社区更多关注“减法研究”。
本章小结
归纳偏置有其最佳适用期,及时移除与及时添加同样重要。
Encoder-Decoder vs Decoder-Only 的历史分析
原始 Transformer(2017)
原始 Transformer 使用 encoder-decoder 架构用于机器翻译:
- 编码器:\(N\) 层双向自注意力 + 前馈网络
- 解码器:\(N\) 层因果自注意力 + 交叉注意力 + 前馈网络
- 连接:交叉注意力让解码器关注编码器的输出
BERT 的选择(2018)
BERT 只用编码器 + 双向注意力 + 掩码语言模型(MLM)目标。当时双向注意力确实更强:能看到完整上下文,训练效率高(每个位置独立预测)。
GPT 的选择(2018)
GPT 只用解码器 + 因果注意力 + 自回归目标。当时看起来不如 BERT,但这个选择引入了最少的结构性假设。
为什么 Decoder-Only 最终胜出
统一视角下的分析
- 双向注意力是一种归纳偏置——假设可以看到完整输入。在规模较小时有用,但阻止了模型作为通用生成器
- 交叉注意力是另一种归纳偏置——假设编码和解码需要不同处理。随规模增大被证明不必要
- 掩码语言模型目标假设可以并行预测所有被掩码的位置——这比自回归目标更高效但更受限
- KV 缓存:因果注意力天然支持 KV 缓存(已处理的 token 可复用),而双向注意力不支持。这在多轮对话场景中是巨大的工程优势
本章小结
Decoder-only 架构的胜出是“苦涩教训”的又一例证:最少假设 + 最多计算 = 最好结果。
对当前趋势的审视
当前的“捷径”
Chung 认为当前仍有许多“结构性捷径”有待被移除:
- 低精度训练(FP16/BF16)——虽然有用,但本质上是计算受限时的权宜之计
- 固定的 tokenizer——人为设计的 token 切分规则可能不是最优的
- 固定的训练数据配比——可能随模型规模变化而需要调整
硬件协同设计
如果架构足够确定(如 Transformer),可以将其硬编码到芯片中以获得更高效率。当前 GPU “太通用”了——这既是优势也是浪费。
机器辅助的芯片设计
Chung 半开玩笑地预测:AI 很快将在芯片设计方面超越人类。届时,AI 可以帮助设计专门优化 Transformer 推理的硬件,形成“AI 设计 AI 硬件”的正反馈循环。
本章小结
保持“减法思维”——持续审视哪些假设可以被移除——是推动进步的关键心态。
对今天 LLM 系统设计的直接建议
先问什么是必须的,再问什么是方便的
Chung 的“苦涩教训”视角,对今天做 LLM 系统的人有很强的现实意义。很多组件之所以存在,并不是因为它们在长期最优,而是因为它们在当前资源约束下方便、便宜、可控。这并没有错,但团队必须明确:哪些设计是本质需求,哪些只是暂时折中。
一条可执行的架构审查问题
面对任意一个系统组件,都可以问三件事:第一,它是否真正提高了最终能力;第二,它是否只是为绕开当前算力/数据限制;第三,如果未来计算更便宜,它是否仍然值得保留。能经受这三问的设计,才更可能跨越代际演化。
这如何影响模型与产品决策
例如,在应用层大量堆叠 prompt 模板、手工规则和链式路由,也许能快速提升短期效果,但这些结构常常会随着基础模型能力提升而被淘汰。反过来,数据管线、评测体系、推理缓存和服务编排这类基础设施,往往会长期保值,因为它们解决的是系统层问题,而非对模型施加过强假设。
本章小结
苦涩教训不是反对工程技巧,而是要求我们持续区分“长期资产”和“阶段性补丁”。
何时应该保留归纳偏置
偏置不是原罪,而是要有退出条件
这节课很容易被误读为“所有归纳偏置都该删掉”。更准确的理解是:归纳偏置在资源不足、数据有限、上线约束严格时非常有价值,但它们最好带有明确的适用边界和退出条件。如果某个偏置随着算力增长仍持续带来收益,那它就不再只是权宜之计,而可能是稳定的系统结构。
现实中常见的两类健康偏置
- 安全偏置:权限控制、审计日志、沙箱执行。这些限制不是为了弥补模型能力不足,而是为了降低系统风险。
- 产品偏置:明确的工作流和交互约束,用来减少用户困惑与误操作。
对研究者的提醒
不要把“通用性”误当作不需要系统设计
即使 decoder-only 模型赢得了主流,也不代表所有任务都该用同一套最小假设直接硬做。真正的经验是:尽量把偏置放在系统层和数据层,而不是过早固化在模型结构里。
本章小结
最健康的做法不是迷信无偏,也不是迷信结构,而是在技术进步过程中不断重新验证哪些假设仍然值得保留。
总结与延伸
本讲通过历史分析建立了一个强大的思维框架:(1) AI 进步由计算能力的指数增长驱动;(2) 归纳偏置是资源不足时的权宜之计;(3) 随着资源增加,应系统地移除不必要的假设;(4) 最简单、最通用的方法在长期内总会胜出。这一框架不仅解释了过去,也为思考未来提供了指导。
拓展阅读
- Sutton, “The Bitter Lesson”, 2019
- Vaswani et al., “Attention Is All You Need”, 2017
- Devlin et al., “BERT: Pre-training of Deep Bidirectional Transformers”, 2019
- Chung et al., “Scaling Instruction-Finetuned Language Models”, 2022