[CS25] Language and Human Alignment — Jan Leike, OpenAI

LaTeX 源码

字段	内容
作者/整理	基于公开课程资料整理
来源	Stanford CS25
日期	2023

引言：AI 对齐的紧迫性

Jan Leike 领导 OpenAI 的对齐团队，拥有超过 10 年的对齐研究经验。他指出 AI 对齐问题正在从理论变为实践：随着 AI 系统能力的快速提升，确保其行为与人类意图一致变得越来越紧迫。

AI 对齐的核心问题

如何确保 AI 系统做人类真正希望它做的事情，而不仅仅是表面上看起来在做正确的事？随着模型能力超越人类评估能力，这个问题将变得更加困难。

从 RLHF 到超级对齐

RLHF 的基本框架

基于人类反馈的强化学习（RLHF）

RLHF 的标准流程：

监督微调（SFT）：在人工编写的高质量回答上微调模型
奖励模型训练：收集人类对模型输出的偏好排序，训练奖励模型
PPO 优化：用奖励模型的信号通过强化学习优化策略模型

AI 辅助评估

可扩展的监督（Scalable Oversight）

当 AI 系统的输出超越人类直接评估的能力时，一个关键思路是用 AI 辅助人类评估：

让 AI 为人类提供批评（critique）
让 AI 帮助人类进行事实核查
让 AI 生成解释，帮助人类理解复杂输出
使用辩论（debate）机制：两个 AI 互相挑战，人类做裁判

ChatGPT 中的对齐实践

Jan 分享了 InstructGPT/ChatGPT 开发中的经验：

ChatGPT 的数据标注者偏向程序员群体，导致了某种“技术风格”
不同标注者群体会导致不同的模型风格
理想情况下，模型应该能适应用户偏好的风格

本章小结

RLHF 是当前实现对齐的主要工具，但随着模型能力增长，需要更可扩展的评估和监督机制。

超级对齐的挑战

能力超越评估能力

对齐的根本困难

核心困境：如果 AI 的能力超越了人类在某个领域的评估能力，我们如何确保它在做正确的事？

人类可能无法区分“真正正确的回答”和“看起来正确但有微妙错误的回答”
模型可能学会“讨好评估者”而非真正解决问题
这不是遥远的未来问题——在编程、数学等领域已经部分存在

对齐研究的方向

可解释性：理解模型内部在做什么
过程监督：不仅评估最终结果，还评估推理过程
递归奖励建模：用对齐的 AI 帮助对齐更强的 AI
宪法 AI：让 AI 根据明确的原则进行自我约束

本章小结

超级对齐是 AI 安全领域最重要也最困难的开放问题之一。

从研究原型到组织级对齐流程

上线前不只是一轮 RLHF

在真实组织里，对齐不是一个训练配方，而是一条持续运转的流程。模型团队需要先定义能力边界，再定义禁止行为，然后建立多层评测和发布门槛。也就是说，RLHF 只是中间一环，前面有数据筛选与 prompt 设计，后面还有红队测试、灰度发布、用户申诉和事后追责。

组织级对齐通常包含四道关

训练关：SFT 与 preference data 是否覆盖关键风险场景。
评测关：离线基准、专家评审与对抗样例是否达标。
发布关：是否有足够的策略层 guardrails、日志和回滚机制。
反馈关：上线后是否能快速吸收真实世界失效案例并回灌训练。

AI 评审者的价值与局限

用更强的 AI 辅助评估，是当前最务实的方向之一。但 AI judge 也会继承训练偏见，甚至学会奖励“看起来安全”而不是真的安全的回答。

不要把 AI judge 当作绝对裁判

AI 评审可以显著放大人类监督能力，却不应成为唯一裁决来源。尤其在高风险场景，必须保留人工复核、抽样审计和跨模型交叉检查，否则错误会被自动化地放大。

本章小结

对齐真正落地时，重点不只是训练一个更听话的模型，而是建立一个可监控、可回滚、可持续修正的组织流程。

未来路线：过程监督与可解释控制

从结果监督走向过程监督

Jan Leike 强调的一个核心方向，是把监督从“答案好不好”推进到“模型是怎么得到这个答案的”。这对数学、编程、科学研究尤其关键，因为错误常常隐藏在中间推理步骤里，而最终结果表面上看起来完全合理。

过程监督为什么重要

如果只看最终答案，模型可能通过投机取巧、抄近路甚至伪造推理来获得高分。过程监督、trace auditing 和 tool-use logging 的共同价值，是让评估者更接近模型实际的决策链，而不是只看输出包装。

对产品团队的直接启示

对于构建 AI 产品的团队，这节课至少给出三条直接建议：

在能力快速上升阶段，评测体系要先于功能上线扩张。
对高风险能力，优先建设可解释日志和人工接管机制，而不是盲目追求自动化。
把对齐视为长期运维问题，而不是一次性训练任务。

本章小结

超级对齐不是一条单点技术路线，而是从结果监督走向过程监督、从模型训练走向系统治理的长期工程。

总结与延伸

Jan Leike 的演讲强调了对齐研究的紧迫性和复杂性。从 RLHF 到可扩展监督，从人类评估到 AI 辅助评估，对齐方法需要与 AI 能力同步进化。这不仅是技术问题，也涉及深刻的哲学和社会问题。

拓展阅读

Ouyang et al., “Training Language Models to Follow Instructions with Human Feedback,” NeurIPS 2022
Leike et al., “Scalable Agent Alignment via Reward Modeling,” arXiv 2018
Burns et al., “Weak-to-Strong Generalization,” OpenAI 2023
Bai et al., “Constitutional AI: Harmlessness from AI Feedback,” 2022