CS224R Lecture 8: Reward Learning

LaTeX 源码 · 观看视频

字段	内容
作者/整理	基于公开课程资料整理
来源	Stanford Online
日期	2025 年春季

奖励从哪里来

在之前的讲次中，我们假设奖励函数 \(r(s, a)\) 是给定的。但在现实中，定义奖励函数本身就是一个难题。

不同领域的奖励情况

电子游戏：分数天然就是奖励，直接可用。
机器人：什么是"好的抓取"？什么是"整洁的折叠"？需要人工定义，往往使用代理指标。
对话系统：什么是"好的回答"？高度主观，难以用简单函数衡量。
自动驾驶：涉及安全、舒适、效率等多个维度的权衡。

除了直接定义奖励外，我们已经见过一种替代方案：模仿学习——直接模仿专家动作，无需奖励。但模仿学习不推理结果和动力学，且专家可能有不同的 embodiment。

本章小结

奖励设计是 RL 应用的关键瓶颈。本讲介绍三种从人类监督中学习奖励的方法。

Goal Classifiers：从目标示例学习奖励

基本思想

收集成功状态（正例）和失败状态（负例），训练一个二分类器，用其输出作为奖励信号。

收集成功状态集 \(D^+\) 和失败状态集 \(D^-\)
训练二分类器：输入 \(s_i\)，标签 \(\mathbf{1}(s_i \in G)\)
用分类器输出作为 RL 的奖励

Reward Hacking

RL 算法会积极寻找使分类器输出高分的状态。它可能找到分类器从未训练过的状态——即利用分类器的弱点，而不是真正完成任务。

对抗训练解决 Reward Hacking

解决思路：将 RL 访问的状态加入负例集合，迫使分类器不断更新以避免被利用。

初始化 \(D^+\)（成功状态）和 \(D^-\)（失败状态）
用 \(D^+\) 和 \(D^-\) 训练分类器（平衡数据集）
用策略 \(\pi\) 收集经验 \(s_t, a_t, \ldots\)
用分类器奖励更新策略
将访问的状态加入负例：\(D^- \leftarrow D^- \cup \{s_t\}\)
重复

为什么这个方法能工作

分类器不再能被利用。关键问题：如果策略真的成功了怎么办？只要保持 \(D^+\) 和 \(D^-\) 的平衡采样，分类器对真正的成功状态仍会输出 \(p \geq 0.5\)。

实验表明，在机器人任务中，基于 50 个演示训练的 goal classifier + RL 达到了 62% 的成功率，远高于直接模仿学习的 26%。

本章小结

Goal classifier 是一种简单有效的奖励学习方法。对抗训练是防止 reward hacking 的关键。

Inverse RL：从行为推断奖励

基本思想

给定专家的演示轨迹，推断专家优化的是什么奖励函数。

\[ \max_\psi \; \mathbb{E}_{\tau \sim \pi_{\text{expert}}}\left[\sum_t r_\psi(s_t, a_t)\right] - \mathbb{E}_{\tau \sim \pi}\left[\sum_t r_\psi(s_t, a_t)\right] \]

直觉：学到的奖励应该使专家的行为比其他策略的行为获得更高的奖励。

MaxEntIRL

加入最大熵正则化后，IRL 与 GAN 有深层联系：奖励函数类似判别器，策略类似生成器。

本章小结

Inverse RL 从专家行为中推断奖励函数，比直接模仿学习更灵活（可以处理不同 embodiment），但需要交替优化奖励和策略。

从人类偏好学习奖励

偏好比较

直接让人类给绝对评分困难且噪声大。更好的方式：展示两个选项，让人类选择哪个更好。

\[ p(y_1 \succ y_2 \mid x) = \sigma\left(R_\phi(x, y_1) - R_\phi(x, y_2)\right) \]

Bradley-Terry 模型

给定人类偏好数据 \((y_w, y_l)\)（\(y_w\) 被偏好），训练奖励模型 \(R_\phi\) 最大化：

\[ \mathcal{L}(\phi) = \mathbb{E}\left[\log \sigma\left(R_\phi(x, y_w) - R_\phi(x, y_l)\right)\right] \]

这就是 RLHF 中奖励模型训练的核心公式。

RLHF Pipeline

收集人类偏好比较数据
训练奖励模型 \(R_\phi\)
用 RL（如 PPO）优化策略以最大化 \(R_\phi\) 的输出

奖励模型也会被利用

与 goal classifier 类似，如果 RL 优化过度，策略可能找到奖励模型的漏洞而不是真正满足人类偏好。因此通常加入 KL 约束，限制策略不能偏离初始策略太远。

本章小结

从偏好比较中学习奖励模型是 RLHF 的基础。Bradley-Terry 模型将偏好比较转化为奖励差的 sigmoid，训练简单高效。

奖励模型的评估与部署

Benchmark Stack

课程强调 reward learning 必须伴随评估体系，不然就像在黑箱里调参。一个有效的 benchmark stack 至少包含三层：

自动指标：log-likelihood、reward model score、KL divergence，与原始 policy 比较是否有所提升
人类深度评估：长轮对话、OpenAI Arena、Anthropic ANAI benchmark 等，通过人工偏好标签持续校准 reward model
安全测试：通过 adversarial probing、red team prompts、low-resource attack attempts，验证 reward model 在 edge case 中仍保持一致

评估的“闭环”原则

数据 → 奖励 → 策略 → 评估 → 数据。每一轮都要记录日志、复现指标、对比 baseline，并把失败案例用于下一轮 reward model 的训练。否则看似走高的 reward score 很容易是 reward hacking。

PDF 图示资源

Reward learning pipeline 的评估反馈回路（来源：lecture slide）

打开 PDF 图示

本章小结

评估体系必须同时关注自动指标、人类偏好、以及安全触发器，三者结合才能确保 reward learning 模型真正提升体验而非“作弊”。

实践案例与治理

两个真实案例的对比

考虑两个典型团队的 reward learning 流程：OpenAI 在 2022 年的 InstructGPT 中大量使用 human preference data，而 Stanford RL 团队则在机器人任务里靠 goal classifiers。下表总结出两者的落差：

维度	OpenAI (InstructGPT)	Stanford Robots	结论
数据来源	人类 preference comparison	success/failure snapshots	人类标签更精准但更贵
Reward signal	sigmoid difference	binary classifier	Bradley-Terry 更适合对话，goal classifier 更适合 deterministic tasks
RL 算法	PPO + KL	TRPO + KL flow	都加入 KL 罚项避免 drifting
部署	API + guardrails	仿真 → 真实 robot	API 需要更多安全审查

两个 reward learning 流程的对比

治理角度的教训

在 API 端，OpenAI 通过 Rate limiting & guardrail filters 补充 reward model；在机器人端，Stanford 团队更依赖 instrumentation + simulators。因此治理策略必须和任务类型匹配。

Observability Playbook

强烈建议按照以下 checklist 构建可观测性 playbook：

记录每条 trajectory 的 reward model score + KL penalty
将 reward anomalies 査到 dashboard（例如 sudden drop below 0.1）
自动化检测过度重复、fast reward jumps、out-of-domain inputs
每周 review failure logs，与人类偏好团队沟通是否需要更多 data

自动化报警的设定

报警规则可以基于模型 score 的 moving average：当 reward score window 上升 3 个 std 或 sudden drop 0.2+ 时推送到 PagerDuty 并 trigger rollback script。

本章小结

实践案例表明 reward learning 既要匹配任务也要匹配组织治理。Checklist 与可观测性是防止 reward hacking 的关键。

操作手册与工具参考

Reward Learning Action Timeline

阶段	主要活动	负责人
数据准备	采集 positive/negative 示例、偏好比较	Data engineer + labelers
Reward training	训练 classifier/RLM、监控 loss 曲线	ML engineer
Evaluation	自动指标、human eval、safety probe	Ops + safety reviewer
Deployment	KL penalty tuning、logging + rollback	DevOps

Reward learning 的操作时间线

工具与命令

使用 tensorboard 监控 reward model 的 logits + loss
将 reward_score 写入 experiment tracker（Weights & Biases / Neptune）
RLHF pipeline 推荐用 trl + DPO + PPO mix

资源定位

Reward learning 资料集中在：OpenAI blog、Anthropic interpretability notes、Stanford RL lab releases。保持订阅这些更新可以及时调整 payoff curve。

PDF 图示资源

Reward trace dashboard 例示（lecture slide, page 7）

打开 PDF 图示

本章小结

幻灯片补充页

行为对齐维度

行为对齐维度\ 该幻灯片描绘了显式奖励、隐式偏好和安全 guardrail 三层结构之间的依赖关系，对应本文中的 reward signal breakdown。

\includegraphics[width=0.92\textwidth,page=11]{08_cs224r_reward_learning_2025.pdf}

Agent Swarm 流程

Agent Swarm 流程\ 该图展示了多 Agent 如何共享 reward trace 以及如何分工处理 metric evaluation，与本章的 Operations Playbook 形成呼应。

\includegraphics[width=0.92\textwidth,page=12]{08_cs224r_reward_learning_2025.pdf}

数据质量控制

数据质量控制\ Data curation pipeline、filter pipes、human annotation loops 的分层结构可用于本章“Batch 数据”章节的参考。

\includegraphics[width=0.92\textwidth,page=13]{08_cs224r_reward_learning_2025.pdf}

治理机制

治理机制\ 解释了 audit logs、human review、policy rollback 的连接，对应治理章节中的 checklist。

\includegraphics[width=0.92\textwidth,page=14]{08_cs224r_reward_learning_2025.pdf}

Sim-to-Real 约束

Sim-to-Real 约束\ Slides 强调 domain randomization 与 reward smoothing 的结合，这是我们在“Sim-to-Real”部分补充的内容。

\includegraphics[width=0.92\textwidth,page=15]{08_cs224r_reward_learning_2025.pdf}

Ops Playbook

Ops Playbook\

\includegraphics[width=0.92\textwidth,page=16]{08_cs224r_reward_learning_2025.pdf}

图示展示各 checkpoint 与 runbook，正面支持本章“Observability Playbook”中提出的 checklist。

Evidence Matrix

Evidence Matrix\ 列出了 reward signal、policy、safety eval 的映射，方便评估不同输入的 evidence quality。

\includegraphics[width=0.92\textwidth,page=17]{08_cs224r_reward_learning_2025.pdf}

未来研究方向

未来研究方向\ 列出 CAI、Verifier、Adaptive Reward 等待探索的方向，是本讲“未来方向”部分的直观延伸。

\includegraphics[width=0.92\textwidth,page=18]{08_cs224r_reward_learning_2025.pdf}

安全与基础设施

日志与可观测性

在部署 reward learned policy 之前，必须保证完整的日志和可观测性链路。关键维度包括：

Reward Trace：记录 reward model 打分、baseline policy 预测、KL penalty
Action Trace：记录 policy 选择的动作、概率分布、temperature
Safety Signals：检测不当内容、hallucination、重复行为

没有日志，结果就无法纠错

实际系统中最危险的 reward hacking 不是模型输出歪了，而是因为团队根本看不到哪里“破产”。通用做法是把 reward model score 写进 trace table，并在达不到阈值时自动 roll back。

从仿真到现实

Reward learning 训练常在仿真环境里完成，部署到现实世界前需做“sim-to-real 补充”：

Domain randomization：在训练中加入光照、噪声、物理扰动
Reward smoothing：在 reward signal 上加入dropout或混合真实人类标签，防止 overfit
Distillation+Calibration：把 large policy 蒸馏到小模型，同时校准 reward model 以抵消 distribution shift

Sim-to-Real 案例

在机器人 grasping 任务里，reward learned policy 在仿真超越 95%，但直接部署到真实抓手会下沉至 45%。解决方式是把 sim 收集的 reward signal 与少量真实 human data 混合，并加入形变扰动进行 fine-tuning。

本章小结

安全部署要求完整的日志体系、自动审查与 sim-to-real 校准。Reward model 的每一步都应该可追踪、可回滚。

总结与延伸

奖励设计是 RL 应用的瓶颈，reward learning 提供了自动化的解决方案。
Goal Classifiers：从成功/失败示例学习，简单直接。对抗训练防止 reward hacking。
Inverse RL：从专家行为推断奖励函数，比模仿学习更灵活。
偏好学习：从人类偏好比较中训练奖励模型，是 RLHF 的核心。
所有 reward learning 方法都面临 reward hacking 的风险，需要正则化和约束。

方法对照表

方法	核心信号	主要优势	主要风险
Goal Classifier	成功 vs 失败状态的二分类概率	简单、易于小数据集应用	Reward hacking、分布漂移
Inverse RL	专家轨迹优化的 reward 函数	可以解释专家意图	需要高质量轨迹、训练不稳定
偏好学习 (RLHF)	人类选择的 winner vs loser	直接对齐人类喜好	Reward hacking、评分噪声

Reward learning 方法对照

延伸阅读与实践方向

继续跟踪 Stanford RL group 的 reward modeling workshop 记录
学习《Deep RL from Human Preferences》中的数据收集 protocol
把自己的 logging pipeline 和 reward trace 绑定在一起，建立可回滚的版本 control

拓展阅读

Christiano et al., Deep Reinforcement Learning from Human Preferences (2017)。
Ziegler et al., Fine-Tuning Language Models from Human Preferences (2019)。
Sharma et al., Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement Learning (2023)。