跳转至

CS224R Lecture 18: 深度 RL 前沿与研究方法

LaTeX 源码 · 备用 PDF · 观看视频

字段 内容
作者/整理 基于公开课程资料整理
来源 Stanford Online
日期 2025 年春季

CS224R Lecture 18: 深度 RL 前沿与研究方法

Part 1:深度 RL 的开放问题与前沿

Chelsea Finn 在本讲中总结了深度 RL 领域的开放问题和前沿方向,并提供了深度 RL 研究的实践建议。

问题定义层面的挑战

奖励设计

奖励设计的根本困难

在现实应用中,设计正确的奖励函数往往比解决 RL 问题本身更困难:

  • 奖励稀疏:大多数时间步没有有意义的反馈
  • 奖励误指定:设计的奖励可能导致非预期行为(reward hacking)
  • 多目标冲突:多个奖励目标之间的权重很难调节

Reward Hacking

当奖励函数不完美时,RL 智能体会找到"合法但非预期"的方式来最大化奖励。经典案例:

  • 赛车游戏中收集奖励币而非完成赛道
  • 机器人通过抖动而非行走来最大化速度奖励
  • LLM 通过重复输出来最大化长度奖励

Reward hacking 是 RL 对齐(alignment)问题的核心挑战之一。

课程用聊天机器人、机器人折叠和推荐系统说明:一旦任务缺少可靠奖励或客观可验证指标,RL 的问题设定本身就会变成研究难点。

状态与动作空间设计

如何选择合适的状态表示和动作空间也是一个重要的设计问题:

  • 状态应该包含足够的信息(满足 Markov 性),但也不能太高维
  • 动作空间的粒度影响学习效率
  • 在 LLM 中,是 token 级还是 sentence 级的动作空间

环境设计与基准

好的 RL 基准的标准

一个有用的 RL 基准应该:

  • 捕捉真实应用中的核心挑战
  • 可以快速迭代(计算开销适度)
  • 评估指标有意义且可靠
  • 与真实世界性能有相关性

当前的挑战是:很多流行的 RL 基准与真实应用的需求脱节。

方法层面的挑战

样本效率

尽管已有很多改进,深度 RL 的样本效率仍然远低于人类学习。

泛化能力

RL 中的泛化问题

当前 RL 方法的泛化能力有限:

  • 在训练环境外的新环境中性能急剧下降
  • 对奖励函数的微小变化过度敏感
  • 难以将在一个任务上学到的知识迁移到相关任务

提升 RL 泛化能力是实现真实世界部署的关键。

多智能体与博弈

多智能体 RL 面临额外的挑战:

  • 环境非平稳(其他智能体的策略在变化)
  • 协调与竞争的平衡
  • 通信协议的学习

讲者把 video generation / world model 放进方法前沿中讨论:它们提供了丰富先验,但在策略分布外使用时又会因为物理误差和分布外动作而失真。

部署与评估层面的挑战

安全性与可信度

部署 RL 系统的风险

将 RL 系统部署到真实世界时面临多重风险:

  • 分布外(out-of-distribution)的状态可能导致灾难性行为
  • RL 策略的决策过程难以解释
  • 对抗攻击可能利用策略的弱点
  • 长期影响难以预测

可重复性

深度 RL 实验的可重复性问题一直备受关注:

  • 对随机种子敏感
  • 超参数调优开销大
  • 不同实现之间的差异可能很大

本章小结

深度 RL 面临从问题定义到方法再到部署的全方位挑战。奖励设计、泛化能力和安全性是最核心的开放问题。

Part 2:如何做深度 RL 研究

研究的心态与方法论

Chelsea Finn 的研究建议

  1. 从问题出发:先理解要解决什么问题,再考虑用什么方法。不要"拿着锤子找钉子"
  2. 先理解再创新:深入理解现有方法的优缺点,创新自然产生
  3. 简单优先:从最简单的方法/实验开始,逐步增加复杂性
  4. 建立直觉:用简单环境建立对算法行为的直觉,然后推广到复杂场景

实验设计

RL 实验的最佳实践

  • 控制变量:每次只改变一个因素
  • 多种子运行:至少 3--5 个随机种子
  • 有意义的基线:选择强基线而非稻草人
  • 消融实验:验证每个设计选择的贡献
  • 诊断工具:监控学习曲线、值函数估计误差、策略熵等

课程把“如何扩展 RL”具体化为 batch-online、价值函数精度和更新频率三个实验设计问题,这些问题决定算法能否真正扩展到长时程和大模型场景。

调试 RL 算法

RL 算法的调试比监督学习困难得多。讲者给出的调试策略:

  1. 在简单环境中验证:先确认算法在 CartPole/Pendulum 上正确工作
  2. 检查奖励曲线:奖励应该单调(或大致单调)增长
  3. 检查值函数:值函数估计应该接近真实回报
  4. 可视化策略行为:观察智能体实际在做什么
  5. 检查梯度:确保梯度没有爆炸或消失

RL 调试的常见陷阱

  • 奖励 scale 不当导致值函数发散
  • 折扣因子 \(\gamma\) 选择不当
  • 数据归一化/标准化遗漏
  • exploration 不足导致策略收敛到局部最优
  • bug 可能被随机性掩盖——即使有 bug,RL 有时也能学到"还行"的策略

如何选择研究方向

讲者对选择研究方向提供了建议:

  • 关注真正重要的问题而非热门话题
  • 寻找理论与实践的差距
  • 跨领域思考(NLP \(\times\) RL、robotics \(\times\) RL)
  • 与从业者交流了解真实需求

本章小结

好的 RL 研究需要清晰的问题定义、严谨的实验设计和有效的调试策略。简单优先、控制变量是核心方法论。

总结与延伸

  1. 深度 RL 的开放问题横跨问题定义、方法和部署三个层面
  2. 奖励设计(避免 reward hacking)、泛化能力和安全性是最重要的方向
  3. 好的研究从理解问题开始,不是从方法开始
  4. RL 实验需要多种子、强基线和消融实验
  5. 调试 RL 需要系统性的方法,可视化和简单环境验证至关重要
  6. 跨领域融合(RL + LLM, RL + robotics)是当前最活跃的前沿

拓展阅读

  • Henderson et al., “Deep Reinforcement Learning that Matters,” AAAI 2018
  • Amodei et al., “Concrete Problems in AI Safety,” arXiv 2016
  • Engstrom et al., “Implementation Matters in Deep Policy Gradients,” ICLR 2020
  • Andrychowicz et al., “What Matters in On-Policy Reinforcement Learning? A Large-Scale Empirical Study,” ICLR 2021