CS224R Lecture 8: Reward Learning
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | Stanford Online |
| 日期 | 2025 年春季 |

奖励从哪里来
在之前的讲次中,我们假设奖励函数 \(r(s, a)\) 是给定的。但在现实中,定义奖励函数本身就是一个难题。
不同领域的奖励情况
- 电子游戏:分数天然就是奖励,直接可用。
- 机器人:什么是"好的抓取"?什么是"整洁的折叠"?需要人工定义,往往使用代理指标。
- 对话系统:什么是"好的回答"?高度主观,难以用简单函数衡量。
- 自动驾驶:涉及安全、舒适、效率等多个维度的权衡。
除了直接定义奖励外,我们已经见过一种替代方案:模仿学习——直接模仿专家动作,无需奖励。但模仿学习不推理结果和动力学,且专家可能有不同的 embodiment。
本章小结
奖励设计是 RL 应用的关键瓶颈。本讲介绍三种从人类监督中学习奖励的方法。
Goal Classifiers:从目标示例学习奖励
基本思想
收集成功状态(正例)和失败状态(负例),训练一个二分类器,用其输出作为奖励信号。
- 收集成功状态集 \(D^+\) 和失败状态集 \(D^-\)
- 训练二分类器:输入 \(s_i\),标签 \(\mathbf{1}(s_i \in G)\)
- 用分类器输出作为 RL 的奖励
Reward Hacking
RL 算法会积极寻找使分类器输出高分的状态。它可能找到分类器从未训练过的状态——即利用分类器的弱点,而不是真正完成任务。
对抗训练解决 Reward Hacking
解决思路:将 RL 访问的状态加入负例集合,迫使分类器不断更新以避免被利用。
- 初始化 \(D^+\)(成功状态)和 \(D^-\)(失败状态)
- 用 \(D^+\) 和 \(D^-\) 训练分类器(平衡数据集)
- 用策略 \(\pi\) 收集经验 \(s_t, a_t, \ldots\)
- 用分类器奖励更新策略
- 将访问的状态加入负例:\(D^- \leftarrow D^- \cup \{s_t\}\)
- 重复
为什么这个方法能工作
分类器不再能被利用。关键问题:如果策略真的成功了怎么办?只要保持 \(D^+\) 和 \(D^-\) 的平衡采样,分类器对真正的成功状态仍会输出 \(p \geq 0.5\)。
实验表明,在机器人任务中,基于 50 个演示训练的 goal classifier + RL 达到了 62% 的成功率,远高于直接模仿学习的 26%。
本章小结
Goal classifier 是一种简单有效的奖励学习方法。对抗训练是防止 reward hacking 的关键。
Inverse RL:从行为推断奖励
基本思想
给定专家的演示轨迹,推断专家优化的是什么奖励函数。
直觉:学到的奖励应该使专家的行为比其他策略的行为获得更高的奖励。
MaxEntIRL
加入最大熵正则化后,IRL 与 GAN 有深层联系:奖励函数类似判别器,策略类似生成器。
本章小结
Inverse RL 从专家行为中推断奖励函数,比直接模仿学习更灵活(可以处理不同 embodiment),但需要交替优化奖励和策略。
从人类偏好学习奖励
偏好比较
直接让人类给绝对评分困难且噪声大。更好的方式:展示两个选项,让人类选择哪个更好。
Bradley-Terry 模型
给定人类偏好数据 \((y_w, y_l)\)(\(y_w\) 被偏好),训练奖励模型 \(R_\phi\) 最大化:
这就是 RLHF 中奖励模型训练的核心公式。
RLHF Pipeline
- 收集人类偏好比较数据
- 训练奖励模型 \(R_\phi\)
- 用 RL(如 PPO)优化策略以最大化 \(R_\phi\) 的输出
奖励模型也会被利用
与 goal classifier 类似,如果 RL 优化过度,策略可能找到奖励模型的漏洞而不是真正满足人类偏好。因此通常加入 KL 约束,限制策略不能偏离初始策略太远。
本章小结
从偏好比较中学习奖励模型是 RLHF 的基础。Bradley-Terry 模型将偏好比较转化为奖励差的 sigmoid,训练简单高效。
奖励模型的评估与部署
Benchmark Stack
课程强调 reward learning 必须伴随评估体系,不然就像在黑箱里调参。一个有效的 benchmark stack 至少包含三层:
- 自动指标:log-likelihood、reward model score、KL divergence,与原始 policy 比较是否有所提升
- 人类深度评估:长轮对话、OpenAI Arena、Anthropic ANAI benchmark 等,通过人工偏好标签持续校准 reward model
- 安全测试:通过 adversarial probing、red team prompts、low-resource attack attempts,验证 reward model 在 edge case 中仍保持一致
评估的“闭环”原则
数据 → 奖励 → 策略 → 评估 → 数据。每一轮都要记录日志、复现指标、对比 baseline,并把失败案例用于下一轮 reward model 的训练。否则看似走高的 reward score 很容易是 reward hacking。
本章小结
评估体系必须同时关注自动指标、人类偏好、以及安全触发器,三者结合才能确保 reward learning 模型真正提升体验而非“作弊”。
实践案例与治理
两个真实案例的对比
考虑两个典型团队的 reward learning 流程:OpenAI 在 2022 年的 InstructGPT 中大量使用 human preference data,而 Stanford RL 团队则在机器人任务里靠 goal classifiers。下表总结出两者的落差:
| 维度 | OpenAI (InstructGPT) | Stanford Robots | 结论 |
|---|---|---|---|
| 数据来源 | 人类 preference comparison | success/failure snapshots | 人类标签更精准但更贵 |
| Reward signal | sigmoid difference | binary classifier | Bradley-Terry 更适合对话,goal classifier 更适合 deterministic tasks |
| RL 算法 | PPO + KL | TRPO + KL flow | 都加入 KL 罚项避免 drifting |
| 部署 | API + guardrails | 仿真 → 真实 robot | API 需要更多安全审查 |
治理角度的教训
在 API 端,OpenAI 通过 Rate limiting & guardrail filters 补充 reward model;在机器人端,Stanford 团队更依赖 instrumentation + simulators。因此治理策略必须和任务类型匹配。
Observability Playbook
强烈建议按照以下 checklist 构建可观测性 playbook:
- 记录每条 trajectory 的 reward model score + KL penalty
- 将 reward anomalies 査到 dashboard(例如 sudden drop below 0.1)
- 自动化检测过度重复、fast reward jumps、out-of-domain inputs
- 每周 review failure logs,与人类偏好团队沟通是否需要更多 data
自动化报警的设定
报警规则可以基于模型 score 的 moving average:当 reward score window 上升 3 个 std 或 sudden drop 0.2+ 时推送到 PagerDuty 并 trigger rollback script。
本章小结
实践案例表明 reward learning 既要匹配任务也要匹配组织治理。Checklist 与可观测性是防止 reward hacking 的关键。
操作手册与工具参考
Reward Learning Action Timeline
| 阶段 | 主要活动 | 负责人 |
|---|---|---|
| 数据准备 | 采集 positive/negative 示例、偏好比较 | Data engineer + labelers |
| Reward training | 训练 classifier/RLM、监控 loss 曲线 | ML engineer |
| Evaluation | 自动指标、human eval、safety probe | Ops + safety reviewer |
| Deployment | KL penalty tuning、logging + rollback | DevOps |
工具与命令
- 使用
tensorboard监控 reward model 的 logits + loss - 将
reward_score写入 experiment tracker(Weights & Biases / Neptune) - RLHF pipeline 推荐用
trl+DPO+PPOmix
资源定位
Reward learning 资料集中在:OpenAI blog、Anthropic interpretability notes、Stanford RL lab releases。保持订阅这些更新可以及时调整 payoff curve。
本章小结
操作手册强调每一步需要负责人并行推进,尤其是 reward training 与 evaluation 不能脱钩。
幻灯片图谱与关键结构
策略角色分布
数据流与日志
Policy Rollout
KL 罚项与温度调度
Fail-safe 监控
人类偏好比较流程
Sim-to-Real 图示
本章小结
Slide gallery 让我们看到 reward learning 将训练、评估、监控串成一体的全景图,方便对照文中 checklist 和操作流水线。
幻灯片补充页
行为对齐维度
行为对齐维度\ 该幻灯片描绘了显式奖励、隐式偏好和安全 guardrail 三层结构之间的依赖关系,对应本文中的 reward signal breakdown。
\includegraphics[width=0.92\textwidth,page=11]{08_cs224r_reward_learning_2025.pdf}
Agent Swarm 流程
Agent Swarm 流程\ 该图展示了多 Agent 如何共享 reward trace 以及如何分工处理 metric evaluation,与本章的 Operations Playbook 形成呼应。
\includegraphics[width=0.92\textwidth,page=12]{08_cs224r_reward_learning_2025.pdf}
数据质量控制
数据质量控制\ Data curation pipeline、filter pipes、human annotation loops 的分层结构可用于本章“Batch 数据”章节的参考。
\includegraphics[width=0.92\textwidth,page=13]{08_cs224r_reward_learning_2025.pdf}
治理机制
治理机制\ 解释了 audit logs、human review、policy rollback 的连接,对应治理章节中的 checklist。
\includegraphics[width=0.92\textwidth,page=14]{08_cs224r_reward_learning_2025.pdf}
Sim-to-Real 约束
Sim-to-Real 约束\ Slides 强调 domain randomization 与 reward smoothing 的结合,这是我们在“Sim-to-Real”部分补充的内容。
\includegraphics[width=0.92\textwidth,page=15]{08_cs224r_reward_learning_2025.pdf}
Ops Playbook
Ops Playbook\
\includegraphics[width=0.92\textwidth,page=16]{08_cs224r_reward_learning_2025.pdf}
图示展示各 checkpoint 与 runbook,正面支持本章“Observability Playbook”中提出的 checklist。
Evidence Matrix
Evidence Matrix\ 列出了 reward signal、policy、safety eval 的映射,方便评估不同输入的 evidence quality。
\includegraphics[width=0.92\textwidth,page=17]{08_cs224r_reward_learning_2025.pdf}
未来研究方向
未来研究方向\ 列出 CAI、Verifier、Adaptive Reward 等待探索的方向,是本讲“未来方向”部分的直观延伸。
\includegraphics[width=0.92\textwidth,page=18]{08_cs224r_reward_learning_2025.pdf}
安全与基础设施
日志与可观测性
在部署 reward learned policy 之前,必须保证完整的日志和可观测性链路。关键维度包括:
- Reward Trace:记录 reward model 打分、baseline policy 预测、KL penalty
- Action Trace:记录 policy 选择的动作、概率分布、temperature
- Safety Signals:检测不当内容、hallucination、重复行为
没有日志,结果就无法纠错
实际系统中最危险的 reward hacking 不是模型输出歪了,而是因为团队根本看不到哪里“破产”。通用做法是把 reward model score 写进 trace table,并在达不到阈值时自动 roll back。
从仿真到现实
Reward learning 训练常在仿真环境里完成,部署到现实世界前需做“sim-to-real 补充”:
- Domain randomization:在训练中加入光照、噪声、物理扰动
- Reward smoothing:在 reward signal 上加入dropout或混合真实人类标签,防止 overfit
- Distillation+Calibration:把 large policy 蒸馏到小模型,同时校准 reward model 以抵消 distribution shift
Sim-to-Real 案例
在机器人 grasping 任务里,reward learned policy 在仿真超越 95%,但直接部署到真实抓手会下沉至 45%。解决方式是把 sim 收集的 reward signal 与少量真实 human data 混合,并加入形变扰动进行 fine-tuning。
本章小结
安全部署要求完整的日志体系、自动审查与 sim-to-real 校准。Reward model 的每一步都应该可追踪、可回滚。
总结与延伸
- 奖励设计是 RL 应用的瓶颈,reward learning 提供了自动化的解决方案。
- Goal Classifiers:从成功/失败示例学习,简单直接。对抗训练防止 reward hacking。
- Inverse RL:从专家行为推断奖励函数,比模仿学习更灵活。
- 偏好学习:从人类偏好比较中训练奖励模型,是 RLHF 的核心。
- 所有 reward learning 方法都面临 reward hacking 的风险,需要正则化和约束。
方法对照表
| 方法 | 核心信号 | 主要优势 | 主要风险 |
|---|---|---|---|
| Goal Classifier | 成功 vs 失败状态的二分类概率 | 简单、易于小数据集应用 | Reward hacking、分布漂移 |
| Inverse RL | 专家轨迹优化的 reward 函数 | 可以解释专家意图 | 需要高质量轨迹、训练不稳定 |
| 偏好学习 (RLHF) | 人类选择的 winner vs loser | 直接对齐人类喜好 | Reward hacking、评分噪声 |
延伸阅读与实践方向
- 继续跟踪 Stanford RL group 的 reward modeling workshop 记录
- 学习《Deep RL from Human Preferences》中的数据收集 protocol
- 把自己的 logging pipeline 和 reward trace 绑定在一起,建立可回滚的版本 control
拓展阅读
- Christiano et al., Deep Reinforcement Learning from Human Preferences (2017)。
- Ziegler et al., Fine-Tuning Language Models from Human Preferences (2019)。
- Sharma et al., Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement Learning (2023)。