CS224R Lecture 1: 深度强化学习导论

LaTeX 源码 · 观看视频

字段	内容
作者/整理	基于公开课程资料整理
来源	Stanford Online
日期	2025 年春季

课程定位：什么是深度强化学习

CS224R 的第一讲从最根本的问题出发：什么是深度强化学习（Deep Reinforcement Learning），它与传统的机器学习有什么不同，以及为什么值得学习。

深度强化学习的定义

深度强化学习研究的是序贯决策问题（Sequential Decision-Making Problems）：系统需要基于信息流不断地"观察——行动——观察——行动"。课程同时研究这类问题的解法，包括 imitation learning、online/offline RL、model-free/model-based RL、multi-task/meta RL 以及 RL for LLMs 和 RL for robots。所有方法都强调能扩展到深度神经网络。

与监督学习的核心区别

在监督学习中，我们拥有标注数据 \(\{(x_i, y_i)\}\)，目标是学习一个函数 \(f(x) \approx y\)。数据点之间是独立同分布（i.i.d.）的，并且我们被直接告知正确的输出。

在强化学习中，情况完全不同：

目标：学习行为策略 \(\pi(a \mid s)\)，将状态映射到动作。
反馈：不是直接告诉答案，而是通过间接反馈（如奖励信号）从经验中学习。
数据非 i.i.d.：智能体的动作 \(a\) 会影响未来的观察 \(s'\)，因此数据分布取决于当前策略。

行为的多种形态

深度强化学习中的"行为"可以包括：机器人的运动控制、聊天机器人的对话、游戏的策略、自动驾驶的决策、Web agent 的操作等。这些场景的共同特点是：模型的输出（动作）会对环境产生后果，进而影响未来的输入。

课程范围与目标

Chelsea Finn 明确指出，这门课不可能覆盖深度强化学习的所有内容。课程聚焦于：

深度 RL 方法背后的核心概念，以便学生能理解更高级的方法。
算法的实现，使学生能够自己编程实现。
以机器人控制和语言模型为主要示例，但技术具有更广泛的适用性。

本章小结

深度强化学习是关于序贯决策的学科。与监督学习相比，RL 面临的独特挑战包括：反馈是间接的、数据是非 i.i.d. 的、动作有后果。课程的核心目标是让学生能够理解和实现现有和新兴的深度 RL 方法。

为什么学习深度强化学习

超越监督学习

许多真实世界的 AI 应用不只是简单的输入输出映射。讲者给出几个关键场景：

决策有后果：如 Spotify 推荐歌曲后，下一次推荐应该避免重复同一首歌，且应保持风格连续性。
直接监督不可得：如编码助手（Cursor、Copilot），用户只能给出"好"或"不好"的反馈，而非直接提供正确输出。
目标不可微：很多实际目标（如用户满意度）无法通过梯度直接优化。

课程用“部署会改变未来观测”这一视角解释为什么序贯决策问题不能退化为普通监督学习（Slide 18）。

广泛应用于高性能 AI 系统

讲者展示了大量深度 RL 的实际应用：

机器人：Unitree 的四足机器人行走、Physical Intelligence 的 \(\pi_0\) 操作、Google Gemini Robotics。
游戏：AlphaGo 的 Move 37 展示了 RL 发现人类未曾想到的新策略的能力。
大语言模型：几乎所有现代 LLM 都使用某种形式的 RL 进行 post-training，尤其是在高级推理方面。
其他：交通控制、生成式图像模型的 prompt 遵循、芯片设计（Google TPU）。

深度 RL 已经成为复杂机器人系统的重要训练范式，尤其适合需要闭环控制和在线适应的物理任务（Slide 19）。

RL 的发现能力

强化学习不只是模仿数据中已有的行为，它还能通过"试错"发现全新的解决方案。AlphaGo 的 Move 37 就是一个经典案例——它走出了人类棋手从未下过的棋步。

课程也明确把 LLM post-training 放进深度 RL 的应用版图中，说明 RL 已经从机器人和游戏扩展到语言模型系统（Slide 22）。

学习的本质

从哲学角度看，从经验中学习似乎是智能的基本组成部分。能够自主实践并改进的算法，是构建真正智能系统的关键。

本章小结

学习深度 RL 的理由包括：(1) 很多问题超出了监督学习的范畴；(2) 高性能 AI 系统广泛使用 RL；(3) 从经验中学习是智能的基本能力；(4) 领域中仍有大量开放研究问题。

建模行为与强化学习基础

经验的数据表示

核心术语

状态 \(s_t\)：时刻 \(t\) 的世界状态。
观察 \(o_t\)：智能体在时刻 \(t\) 观察到的信息（当存在信息缺失时使用）。
动作 \(a_t\)：时刻 \(t\) 的决策。
轨迹 \(\tau = (s_1, a_1, s_2, a_2, \ldots, s_T, a_T)\)：一个完整的状态-动作序列。
奖励函数 \(r(s, a)\)：衡量状态-动作对的好坏。

状态与观察的区别

一个关键性质是马尔可夫性（Markov Property）：下一个状态仅取决于当前状态和动作，与更早的历史无关：

\[ p(s_{t+1} \mid s_t, a_t) \quad \text{独立于 } s_{t-1} \]

但在很多实际场景中（如聊天机器人），智能体只能看到观察而非完整状态，此时需要给策略加入记忆：\(\pi_\theta(a_t \mid o_{t-m}, \ldots, o_t)\)。

用神经网络表示行为

策略 \(\pi_\theta(a \mid s)\) 是将状态映射到动作分布的函数。智能体的运行过程如下：

观察状态 \(s_t\)
从策略中采样动作 \(a_t \sim \pi_\theta(\cdot \mid s_t)\)
观察下一个状态 \(s_{t+1} \sim p(\cdot \mid s_t, a_t)\)

这样产生的完整序列称为策略 rollout 或 episode。

强化学习的目标

强化学习的目标是最大化期望累计奖励：

\[ \max_\theta \; \mathbb{E}_{\tau \sim p_\theta(\tau)} \left[ \sum_{t} r(s_t, a_t) \right] \]

其中轨迹分布为：

\[ p_\theta(\tau) = p(s_1) \prod_{t=1}^{T} \pi_\theta(a_t \mid s_t) \, p(s_{t+1} \mid s_t, a_t) \]

为什么要用期望

累计奖励不是一个确定量，它有两个随机性来源：(1) 环境本身是随机的；(2) 策略可能是随机的。因此我们优化的是期望累计奖励。

随机策略的意义

为什么使用随机策略而不是确定性策略？两个原因：

探索：要从自己的经验中学习，必须尝试不同的事情。
建模随机行为：现有数据往往展示多样化的行为，可以利用生成模型的工具。

价值函数与 Q 函数

衡量策略好坏的两个核心量：

价值函数 \(V^\pi(s)\)：从状态 \(s\) 出发，遵循策略 \(\pi\) 的未来期望奖励。
Q 函数 \(Q^\pi(s, a)\)：从状态 \(s\) 采取动作 \(a\)，然后遵循策略 \(\pi\) 的未来期望奖励。

算法类型概览

Imitation Learning：模仿能获得高奖励的策略。
Policy Gradients：直接对目标函数求梯度。
Actor-Critic：估计当前策略的价值，并用它来改进策略。
Value-based：估计最优策略的价值。
Model-based：学习环境动力学模型，用于规划或策略改进。

不同算法做了不同的权衡，适用于不同的假设条件（数据收集成本、监督形式、稳定性、动作空间特性等）。

本章小结

强化学习的基本要素包括状态、动作、轨迹、奖励和策略。目标是最大化期望累计奖励。价值函数和 Q 函数是评估策略好坏的核心工具。不同类型的算法各有侧重，适用于不同场景。

总结与延伸

本讲建立了深度强化学习的整体框架。核心要点包括：

深度 RL 研究序贯决策问题及其解法，与监督学习有本质区别。
RL 的应用已经非常广泛：从机器人到游戏到 LLM 的 post-training。
基本建模框架：状态、动作、策略、奖励、轨迹。
目标是最大化期望累计奖励 \(\mathbb{E}_{\tau \sim p_\theta(\tau)} \left[\sum_t r(s_t, a_t)\right]\)。
后续课程将依次介绍 imitation learning、policy gradients、actor-critic、Q-learning、offline RL、reward learning 和 RLHF。

拓展阅读

Sutton & Barto, Reinforcement Learning: An Introduction (2nd edition)：经典 RL 教材。
CS234 (Stanford)：更偏理论的 RL 课程，与 CS224R 互补。
Sergey Levine, CS285 (Berkeley)：另一门优秀的深度 RL 课程。