[CS25] Language and Human Alignment — Jan Leike, OpenAI
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | Stanford CS25 |
| 日期 | 2023 |
![[CS25] Language and Human Alignment — Jan Leike, OpenAI](cover.jpg)
引言:AI 对齐的紧迫性
Jan Leike 领导 OpenAI 的对齐团队,拥有超过 10 年的对齐研究经验。他指出 AI 对齐问题正在从理论变为实践:随着 AI 系统能力的快速提升,确保其行为与人类意图一致变得越来越紧迫。
AI 对齐的核心问题
如何确保 AI 系统做人类真正希望它做的事情,而不仅仅是表面上看起来在做正确的事?随着模型能力超越人类评估能力,这个问题将变得更加困难。
从 RLHF 到超级对齐
RLHF 的基本框架
基于人类反馈的强化学习(RLHF)
RLHF 的标准流程:
- 监督微调(SFT):在人工编写的高质量回答上微调模型
- 奖励模型训练:收集人类对模型输出的偏好排序,训练奖励模型
- PPO 优化:用奖励模型的信号通过强化学习优化策略模型
AI 辅助评估
可扩展的监督(Scalable Oversight)
当 AI 系统的输出超越人类直接评估的能力时,一个关键思路是用 AI 辅助人类评估:
- 让 AI 为人类提供批评(critique)
- 让 AI 帮助人类进行事实核查
- 让 AI 生成解释,帮助人类理解复杂输出
- 使用辩论(debate)机制:两个 AI 互相挑战,人类做裁判
ChatGPT 中的对齐实践
Jan 分享了 InstructGPT/ChatGPT 开发中的经验:
- ChatGPT 的数据标注者偏向程序员群体,导致了某种“技术风格”
- 不同标注者群体会导致不同的模型风格
- 理想情况下,模型应该能适应用户偏好的风格
本章小结
RLHF 是当前实现对齐的主要工具,但随着模型能力增长,需要更可扩展的评估和监督机制。
超级对齐的挑战
能力超越评估能力
对齐的根本困难
核心困境:如果 AI 的能力超越了人类在某个领域的评估能力,我们如何确保它在做正确的事?
- 人类可能无法区分“真正正确的回答”和“看起来正确但有微妙错误的回答”
- 模型可能学会“讨好评估者”而非真正解决问题
- 这不是遥远的未来问题——在编程、数学等领域已经部分存在
对齐研究的方向
- 可解释性:理解模型内部在做什么
- 过程监督:不仅评估最终结果,还评估推理过程
- 递归奖励建模:用对齐的 AI 帮助对齐更强的 AI
- 宪法 AI:让 AI 根据明确的原则进行自我约束
本章小结
超级对齐是 AI 安全领域最重要也最困难的开放问题之一。
从研究原型到组织级对齐流程
上线前不只是一轮 RLHF
在真实组织里,对齐不是一个训练配方,而是一条持续运转的流程。模型团队需要先定义能力边界,再定义禁止行为,然后建立多层评测和发布门槛。也就是说,RLHF 只是中间一环,前面有数据筛选与 prompt 设计,后面还有红队测试、灰度发布、用户申诉和事后追责。
组织级对齐通常包含四道关
- 训练关:SFT 与 preference data 是否覆盖关键风险场景。
- 评测关:离线基准、专家评审与对抗样例是否达标。
- 发布关:是否有足够的策略层 guardrails、日志和回滚机制。
- 反馈关:上线后是否能快速吸收真实世界失效案例并回灌训练。
AI 评审者的价值与局限
用更强的 AI 辅助评估,是当前最务实的方向之一。但 AI judge 也会继承训练偏见,甚至学会奖励“看起来安全”而不是真的安全的回答。
不要把 AI judge 当作绝对裁判
AI 评审可以显著放大人类监督能力,却不应成为唯一裁决来源。尤其在高风险场景,必须保留人工复核、抽样审计和跨模型交叉检查,否则错误会被自动化地放大。
本章小结
对齐真正落地时,重点不只是训练一个更听话的模型,而是建立一个可监控、可回滚、可持续修正的组织流程。
未来路线:过程监督与可解释控制
从结果监督走向过程监督
Jan Leike 强调的一个核心方向,是把监督从“答案好不好”推进到“模型是怎么得到这个答案的”。这对数学、编程、科学研究尤其关键,因为错误常常隐藏在中间推理步骤里,而最终结果表面上看起来完全合理。
过程监督为什么重要
如果只看最终答案,模型可能通过投机取巧、抄近路甚至伪造推理来获得高分。过程监督、trace auditing 和 tool-use logging 的共同价值,是让评估者更接近模型实际的决策链,而不是只看输出包装。
对产品团队的直接启示
对于构建 AI 产品的团队,这节课至少给出三条直接建议:
- 在能力快速上升阶段,评测体系要先于功能上线扩张。
- 对高风险能力,优先建设可解释日志和人工接管机制,而不是盲目追求自动化。
- 把对齐视为长期运维问题,而不是一次性训练任务。
本章小结
超级对齐不是一条单点技术路线,而是从结果监督走向过程监督、从模型训练走向系统治理的长期工程。
总结与延伸
Jan Leike 的演讲强调了对齐研究的紧迫性和复杂性。从 RLHF 到可扩展监督,从人类评估到 AI 辅助评估,对齐方法需要与 AI 能力同步进化。这不仅是技术问题,也涉及深刻的哲学和社会问题。
拓展阅读
- Ouyang et al., “Training Language Models to Follow Instructions with Human Feedback,” NeurIPS 2022
- Leike et al., “Scalable Agent Alignment via Reward Modeling,” arXiv 2018
- Burns et al., “Weak-to-Strong Generalization,” OpenAI 2023
- Bai et al., “Constitutional AI: Harmlessness from AI Feedback,” 2022