CS224R Lecture 18: 深度 RL 前沿与研究方法

LaTeX 源码 · 观看视频

字段	内容
作者/整理	基于公开课程资料整理
来源	Stanford Online
日期	2025 年春季

Part 1：深度 RL 的开放问题与前沿

Chelsea Finn 在本讲中总结了深度 RL 领域的开放问题和前沿方向，并提供了深度 RL 研究的实践建议。

问题定义层面的挑战

奖励设计

奖励设计的根本困难

在现实应用中，设计正确的奖励函数往往比解决 RL 问题本身更困难：

奖励稀疏：大多数时间步没有有意义的反馈
奖励误指定：设计的奖励可能导致非预期行为（reward hacking）
多目标冲突：多个奖励目标之间的权重很难调节

Reward Hacking

当奖励函数不完美时，RL 智能体会找到"合法但非预期"的方式来最大化奖励。经典案例：

赛车游戏中收集奖励币而非完成赛道
机器人通过抖动而非行走来最大化速度奖励
LLM 通过重复输出来最大化长度奖励

Reward hacking 是 RL 对齐（alignment）问题的核心挑战之一。

课程用聊天机器人、机器人折叠和推荐系统说明：一旦任务缺少可靠奖励或客观可验证指标，RL 的问题设定本身就会变成研究难点。

状态与动作空间设计

如何选择合适的状态表示和动作空间也是一个重要的设计问题：

状态应该包含足够的信息（满足 Markov 性），但也不能太高维
动作空间的粒度影响学习效率
在 LLM 中，是 token 级还是 sentence 级的动作空间

环境设计与基准

好的 RL 基准的标准

一个有用的 RL 基准应该：

捕捉真实应用中的核心挑战
可以快速迭代（计算开销适度）
评估指标有意义且可靠
与真实世界性能有相关性

当前的挑战是：很多流行的 RL 基准与真实应用的需求脱节。

方法层面的挑战

样本效率

尽管已有很多改进，深度 RL 的样本效率仍然远低于人类学习。

泛化能力

RL 中的泛化问题

当前 RL 方法的泛化能力有限：

在训练环境外的新环境中性能急剧下降
对奖励函数的微小变化过度敏感
难以将在一个任务上学到的知识迁移到相关任务

提升 RL 泛化能力是实现真实世界部署的关键。

多智能体与博弈

多智能体 RL 面临额外的挑战：

环境非平稳（其他智能体的策略在变化）
协调与竞争的平衡
通信协议的学习

讲者把 video generation / world model 放进方法前沿中讨论：它们提供了丰富先验，但在策略分布外使用时又会因为物理误差和分布外动作而失真。

部署与评估层面的挑战

安全性与可信度

部署 RL 系统的风险

将 RL 系统部署到真实世界时面临多重风险：

分布外（out-of-distribution）的状态可能导致灾难性行为
RL 策略的决策过程难以解释
对抗攻击可能利用策略的弱点
长期影响难以预测

可重复性

深度 RL 实验的可重复性问题一直备受关注：

对随机种子敏感
超参数调优开销大
不同实现之间的差异可能很大

本章小结

深度 RL 面临从问题定义到方法再到部署的全方位挑战。奖励设计、泛化能力和安全性是最核心的开放问题。

Part 2：如何做深度 RL 研究

研究的心态与方法论

Chelsea Finn 的研究建议

从问题出发：先理解要解决什么问题，再考虑用什么方法。不要"拿着锤子找钉子"
先理解再创新：深入理解现有方法的优缺点，创新自然产生
简单优先：从最简单的方法/实验开始，逐步增加复杂性
建立直觉：用简单环境建立对算法行为的直觉，然后推广到复杂场景

实验设计

RL 实验的最佳实践

控制变量：每次只改变一个因素
多种子运行：至少 3--5 个随机种子
有意义的基线：选择强基线而非稻草人
消融实验：验证每个设计选择的贡献
诊断工具：监控学习曲线、值函数估计误差、策略熵等

课程把“如何扩展 RL”具体化为 batch-online、价值函数精度和更新频率三个实验设计问题，这些问题决定算法能否真正扩展到长时程和大模型场景。

调试 RL 算法

RL 算法的调试比监督学习困难得多。讲者给出的调试策略：

在简单环境中验证：先确认算法在 CartPole/Pendulum 上正确工作
检查奖励曲线：奖励应该单调（或大致单调）增长
检查值函数：值函数估计应该接近真实回报
可视化策略行为：观察智能体实际在做什么
检查梯度：确保梯度没有爆炸或消失

RL 调试的常见陷阱

奖励 scale 不当导致值函数发散
折扣因子 \(\gamma\) 选择不当
数据归一化/标准化遗漏
exploration 不足导致策略收敛到局部最优
bug 可能被随机性掩盖——即使有 bug，RL 有时也能学到"还行"的策略

如何选择研究方向

讲者对选择研究方向提供了建议：

关注真正重要的问题而非热门话题
寻找理论与实践的差距
跨领域思考（NLP \(\times\) RL、robotics \(\times\) RL）
与从业者交流了解真实需求

本章小结

好的 RL 研究需要清晰的问题定义、严谨的实验设计和有效的调试策略。简单优先、控制变量是核心方法论。

总结与延伸

深度 RL 的开放问题横跨问题定义、方法和部署三个层面
奖励设计（避免 reward hacking）、泛化能力和安全性是最重要的方向
好的研究从理解问题开始，不是从方法开始
RL 实验需要多种子、强基线和消融实验
调试 RL 需要系统性的方法，可视化和简单环境验证至关重要
跨领域融合（RL + LLM, RL + robotics）是当前最活跃的前沿

拓展阅读

Henderson et al., “Deep Reinforcement Learning that Matters,” AAAI 2018
Amodei et al., “Concrete Problems in AI Safety,” arXiv 2016
Engstrom et al., “Implementation Matters in Deep Policy Gradients,” ICLR 2020
Andrychowicz et al., “What Matters in On-Policy Reinforcement Learning? A Large-Scale Empirical Study,” ICLR 2021