跳转至

CS224R Lecture 1: 深度强化学习导论

LaTeX 源码 · 备用 PDF · 观看视频

字段 内容
作者/整理 基于公开课程资料整理
来源 Stanford Online
日期 2025 年春季

CS224R Lecture 1: 深度强化学习导论

课程定位:什么是深度强化学习

CS224R 的第一讲从最根本的问题出发:什么是深度强化学习(Deep Reinforcement Learning),它与传统的机器学习有什么不同,以及为什么值得学习。

深度强化学习的定义

深度强化学习研究的是序贯决策问题(Sequential Decision-Making Problems):系统需要基于信息流不断地"观察——行动——观察——行动"。课程同时研究这类问题的解法,包括 imitation learning、online/offline RL、model-free/model-based RL、multi-task/meta RL 以及 RL for LLMs 和 RL for robots。所有方法都强调能扩展到深度神经网络。

与监督学习的核心区别

在监督学习中,我们拥有标注数据 \(\{(x_i, y_i)\}\),目标是学习一个函数 \(f(x) \approx y\)。数据点之间是独立同分布(i.i.d.)的,并且我们被直接告知正确的输出。

在强化学习中,情况完全不同:

  • 目标:学习行为策略 \(\pi(a \mid s)\),将状态映射到动作。
  • 反馈:不是直接告诉答案,而是通过间接反馈(如奖励信号)从经验中学习。
  • 数据非 i.i.d.:智能体的动作 \(a\) 会影响未来的观察 \(s'\),因此数据分布取决于当前策略。

行为的多种形态

深度强化学习中的"行为"可以包括:机器人的运动控制、聊天机器人的对话、游戏的策略、自动驾驶的决策、Web agent 的操作等。这些场景的共同特点是:模型的输出(动作)会对环境产生后果,进而影响未来的输入。

课程范围与目标

Chelsea Finn 明确指出,这门课不可能覆盖深度强化学习的所有内容。课程聚焦于:

  • 深度 RL 方法背后的核心概念,以便学生能理解更高级的方法。
  • 算法的实现,使学生能够自己编程实现。
  • 机器人控制和语言模型为主要示例,但技术具有更广泛的适用性。

本章小结

深度强化学习是关于序贯决策的学科。与监督学习相比,RL 面临的独特挑战包括:反馈是间接的、数据是非 i.i.d. 的、动作有后果。课程的核心目标是让学生能够理解和实现现有和新兴的深度 RL 方法。

为什么学习深度强化学习

超越监督学习

许多真实世界的 AI 应用不只是简单的输入输出映射。讲者给出几个关键场景:

  1. 决策有后果:如 Spotify 推荐歌曲后,下一次推荐应该避免重复同一首歌,且应保持风格连续性。
  2. 直接监督不可得:如编码助手(Cursor、Copilot),用户只能给出"好"或"不好"的反馈,而非直接提供正确输出。
  3. 目标不可微:很多实际目标(如用户满意度)无法通过梯度直接优化。

课程用“部署会改变未来观测”这一视角解释为什么序贯决策问题不能退化为普通监督学习(Slide 18)。

广泛应用于高性能 AI 系统

讲者展示了大量深度 RL 的实际应用:

  • 机器人:Unitree 的四足机器人行走、Physical Intelligence 的 \(\pi_0\) 操作、Google Gemini Robotics。
  • 游戏:AlphaGo 的 Move 37 展示了 RL 发现人类未曾想到的新策略的能力。
  • 大语言模型:几乎所有现代 LLM 都使用某种形式的 RL 进行 post-training,尤其是在高级推理方面。
  • 其他:交通控制、生成式图像模型的 prompt 遵循、芯片设计(Google TPU)。

深度 RL 已经成为复杂机器人系统的重要训练范式,尤其适合需要闭环控制和在线适应的物理任务(Slide 19)。

RL 的发现能力

强化学习不只是模仿数据中已有的行为,它还能通过"试错"发现全新的解决方案。AlphaGo 的 Move 37 就是一个经典案例——它走出了人类棋手从未下过的棋步。

课程也明确把 LLM post-training 放进深度 RL 的应用版图中,说明 RL 已经从机器人和游戏扩展到语言模型系统(Slide 22)。

学习的本质

从哲学角度看,从经验中学习似乎是智能的基本组成部分。能够自主实践并改进的算法,是构建真正智能系统的关键。

本章小结

学习深度 RL 的理由包括:(1) 很多问题超出了监督学习的范畴;(2) 高性能 AI 系统广泛使用 RL;(3) 从经验中学习是智能的基本能力;(4) 领域中仍有大量开放研究问题。

建模行为与强化学习基础

经验的数据表示

核心术语

  • 状态 \(s_t\):时刻 \(t\) 的世界状态。
  • 观察 \(o_t\):智能体在时刻 \(t\) 观察到的信息(当存在信息缺失时使用)。
  • 动作 \(a_t\):时刻 \(t\) 的决策。
  • 轨迹 \(\tau = (s_1, a_1, s_2, a_2, \ldots, s_T, a_T)\):一个完整的状态-动作序列。
  • 奖励函数 \(r(s, a)\):衡量状态-动作对的好坏。

状态与观察的区别

一个关键性质是马尔可夫性(Markov Property):下一个状态仅取决于当前状态和动作,与更早的历史无关:

\[ p(s_{t+1} \mid s_t, a_t) \quad \text{独立于 } s_{t-1} \]

但在很多实际场景中(如聊天机器人),智能体只能看到观察而非完整状态,此时需要给策略加入记忆:\(\pi_\theta(a_t \mid o_{t-m}, \ldots, o_t)\)

用神经网络表示行为

策略 \(\pi_\theta(a \mid s)\) 是将状态映射到动作分布的函数。智能体的运行过程如下:

  1. 观察状态 \(s_t\)
  2. 从策略中采样动作 \(a_t \sim \pi_\theta(\cdot \mid s_t)\)
  3. 观察下一个状态 \(s_{t+1} \sim p(\cdot \mid s_t, a_t)\)

这样产生的完整序列称为策略 rollout 或 episode。

强化学习的目标

强化学习的目标是最大化期望累计奖励

\[ \max_\theta \; \mathbb{E}_{\tau \sim p_\theta(\tau)} \left[ \sum_{t} r(s_t, a_t) \right] \]

其中轨迹分布为:

\[ p_\theta(\tau) = p(s_1) \prod_{t=1}^{T} \pi_\theta(a_t \mid s_t) \, p(s_{t+1} \mid s_t, a_t) \]

为什么要用期望

累计奖励不是一个确定量,它有两个随机性来源:(1) 环境本身是随机的;(2) 策略可能是随机的。因此我们优化的是期望累计奖励。

随机策略的意义

为什么使用随机策略而不是确定性策略?两个原因:

  1. 探索:要从自己的经验中学习,必须尝试不同的事情。
  2. 建模随机行为:现有数据往往展示多样化的行为,可以利用生成模型的工具。

价值函数与 Q 函数

衡量策略好坏的两个核心量:

  • 价值函数 \(V^\pi(s)\):从状态 \(s\) 出发,遵循策略 \(\pi\) 的未来期望奖励。
  • Q 函数 \(Q^\pi(s, a)\):从状态 \(s\) 采取动作 \(a\),然后遵循策略 \(\pi\) 的未来期望奖励。

算法类型概览

  1. Imitation Learning:模仿能获得高奖励的策略。
  2. Policy Gradients:直接对目标函数求梯度。
  3. Actor-Critic:估计当前策略的价值,并用它来改进策略。
  4. Value-based:估计最优策略的价值。
  5. Model-based:学习环境动力学模型,用于规划或策略改进。

不同算法做了不同的权衡,适用于不同的假设条件(数据收集成本、监督形式、稳定性、动作空间特性等)。

本章小结

强化学习的基本要素包括状态、动作、轨迹、奖励和策略。目标是最大化期望累计奖励。价值函数和 Q 函数是评估策略好坏的核心工具。不同类型的算法各有侧重,适用于不同场景。

总结与延伸

本讲建立了深度强化学习的整体框架。核心要点包括:

  1. 深度 RL 研究序贯决策问题及其解法,与监督学习有本质区别。
  2. RL 的应用已经非常广泛:从机器人到游戏到 LLM 的 post-training。
  3. 基本建模框架:状态、动作、策略、奖励、轨迹。
  4. 目标是最大化期望累计奖励 \(\mathbb{E}_{\tau \sim p_\theta(\tau)} \left[\sum_t r(s_t, a_t)\right]\)
  5. 后续课程将依次介绍 imitation learning、policy gradients、actor-critic、Q-learning、offline RL、reward learning 和 RLHF。

拓展阅读

  • Sutton & Barto, Reinforcement Learning: An Introduction (2nd edition):经典 RL 教材。
  • CS234 (Stanford):更偏理论的 RL 课程,与 CS224R 互补。
  • Sergey Levine, CS285 (Berkeley):另一门优秀的深度 RL 课程。