CS224R Lecture 1: 深度强化学习导论
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | Stanford Online |
| 日期 | 2025 年春季 |

课程定位:什么是深度强化学习
CS224R 的第一讲从最根本的问题出发:什么是深度强化学习(Deep Reinforcement Learning),它与传统的机器学习有什么不同,以及为什么值得学习。
深度强化学习的定义
深度强化学习研究的是序贯决策问题(Sequential Decision-Making Problems):系统需要基于信息流不断地"观察——行动——观察——行动"。课程同时研究这类问题的解法,包括 imitation learning、online/offline RL、model-free/model-based RL、multi-task/meta RL 以及 RL for LLMs 和 RL for robots。所有方法都强调能扩展到深度神经网络。
与监督学习的核心区别
在监督学习中,我们拥有标注数据 \(\{(x_i, y_i)\}\),目标是学习一个函数 \(f(x) \approx y\)。数据点之间是独立同分布(i.i.d.)的,并且我们被直接告知正确的输出。
在强化学习中,情况完全不同:
- 目标:学习行为策略 \(\pi(a \mid s)\),将状态映射到动作。
- 反馈:不是直接告诉答案,而是通过间接反馈(如奖励信号)从经验中学习。
- 数据非 i.i.d.:智能体的动作 \(a\) 会影响未来的观察 \(s'\),因此数据分布取决于当前策略。
行为的多种形态
深度强化学习中的"行为"可以包括:机器人的运动控制、聊天机器人的对话、游戏的策略、自动驾驶的决策、Web agent 的操作等。这些场景的共同特点是:模型的输出(动作)会对环境产生后果,进而影响未来的输入。
课程范围与目标
Chelsea Finn 明确指出,这门课不可能覆盖深度强化学习的所有内容。课程聚焦于:
- 深度 RL 方法背后的核心概念,以便学生能理解更高级的方法。
- 算法的实现,使学生能够自己编程实现。
- 以机器人控制和语言模型为主要示例,但技术具有更广泛的适用性。
本章小结
深度强化学习是关于序贯决策的学科。与监督学习相比,RL 面临的独特挑战包括:反馈是间接的、数据是非 i.i.d. 的、动作有后果。课程的核心目标是让学生能够理解和实现现有和新兴的深度 RL 方法。
为什么学习深度强化学习
超越监督学习
许多真实世界的 AI 应用不只是简单的输入输出映射。讲者给出几个关键场景:
- 决策有后果:如 Spotify 推荐歌曲后,下一次推荐应该避免重复同一首歌,且应保持风格连续性。
- 直接监督不可得:如编码助手(Cursor、Copilot),用户只能给出"好"或"不好"的反馈,而非直接提供正确输出。
- 目标不可微:很多实际目标(如用户满意度)无法通过梯度直接优化。

广泛应用于高性能 AI 系统
讲者展示了大量深度 RL 的实际应用:
- 机器人:Unitree 的四足机器人行走、Physical Intelligence 的 \(\pi_0\) 操作、Google Gemini Robotics。
- 游戏:AlphaGo 的 Move 37 展示了 RL 发现人类未曾想到的新策略的能力。
- 大语言模型:几乎所有现代 LLM 都使用某种形式的 RL 进行 post-training,尤其是在高级推理方面。
- 其他:交通控制、生成式图像模型的 prompt 遵循、芯片设计(Google TPU)。

RL 的发现能力
强化学习不只是模仿数据中已有的行为,它还能通过"试错"发现全新的解决方案。AlphaGo 的 Move 37 就是一个经典案例——它走出了人类棋手从未下过的棋步。

学习的本质
从哲学角度看,从经验中学习似乎是智能的基本组成部分。能够自主实践并改进的算法,是构建真正智能系统的关键。
本章小结
学习深度 RL 的理由包括:(1) 很多问题超出了监督学习的范畴;(2) 高性能 AI 系统广泛使用 RL;(3) 从经验中学习是智能的基本能力;(4) 领域中仍有大量开放研究问题。
建模行为与强化学习基础
经验的数据表示
核心术语
- 状态 \(s_t\):时刻 \(t\) 的世界状态。
- 观察 \(o_t\):智能体在时刻 \(t\) 观察到的信息(当存在信息缺失时使用)。
- 动作 \(a_t\):时刻 \(t\) 的决策。
- 轨迹 \(\tau = (s_1, a_1, s_2, a_2, \ldots, s_T, a_T)\):一个完整的状态-动作序列。
- 奖励函数 \(r(s, a)\):衡量状态-动作对的好坏。
状态与观察的区别
一个关键性质是马尔可夫性(Markov Property):下一个状态仅取决于当前状态和动作,与更早的历史无关:
但在很多实际场景中(如聊天机器人),智能体只能看到观察而非完整状态,此时需要给策略加入记忆:\(\pi_\theta(a_t \mid o_{t-m}, \ldots, o_t)\)。
用神经网络表示行为
策略 \(\pi_\theta(a \mid s)\) 是将状态映射到动作分布的函数。智能体的运行过程如下:
- 观察状态 \(s_t\)
- 从策略中采样动作 \(a_t \sim \pi_\theta(\cdot \mid s_t)\)
- 观察下一个状态 \(s_{t+1} \sim p(\cdot \mid s_t, a_t)\)
这样产生的完整序列称为策略 rollout 或 episode。
强化学习的目标
强化学习的目标是最大化期望累计奖励:
其中轨迹分布为:
为什么要用期望
累计奖励不是一个确定量,它有两个随机性来源:(1) 环境本身是随机的;(2) 策略可能是随机的。因此我们优化的是期望累计奖励。
随机策略的意义
为什么使用随机策略而不是确定性策略?两个原因:
- 探索:要从自己的经验中学习,必须尝试不同的事情。
- 建模随机行为:现有数据往往展示多样化的行为,可以利用生成模型的工具。
价值函数与 Q 函数
衡量策略好坏的两个核心量:
- 价值函数 \(V^\pi(s)\):从状态 \(s\) 出发,遵循策略 \(\pi\) 的未来期望奖励。
- Q 函数 \(Q^\pi(s, a)\):从状态 \(s\) 采取动作 \(a\),然后遵循策略 \(\pi\) 的未来期望奖励。
算法类型概览
- Imitation Learning:模仿能获得高奖励的策略。
- Policy Gradients:直接对目标函数求梯度。
- Actor-Critic:估计当前策略的价值,并用它来改进策略。
- Value-based:估计最优策略的价值。
- Model-based:学习环境动力学模型,用于规划或策略改进。
不同算法做了不同的权衡,适用于不同的假设条件(数据收集成本、监督形式、稳定性、动作空间特性等)。
本章小结
强化学习的基本要素包括状态、动作、轨迹、奖励和策略。目标是最大化期望累计奖励。价值函数和 Q 函数是评估策略好坏的核心工具。不同类型的算法各有侧重,适用于不同场景。
总结与延伸
本讲建立了深度强化学习的整体框架。核心要点包括:
- 深度 RL 研究序贯决策问题及其解法,与监督学习有本质区别。
- RL 的应用已经非常广泛:从机器人到游戏到 LLM 的 post-training。
- 基本建模框架:状态、动作、策略、奖励、轨迹。
- 目标是最大化期望累计奖励 \(\mathbb{E}_{\tau \sim p_\theta(\tau)} \left[\sum_t r(s_t, a_t)\right]\)。
- 后续课程将依次介绍 imitation learning、policy gradients、actor-critic、Q-learning、offline RL、reward learning 和 RLHF。
拓展阅读
- Sutton & Barto, Reinforcement Learning: An Introduction (2nd edition):经典 RL 教材。
- CS234 (Stanford):更偏理论的 RL 课程,与 CS224R 互补。
- Sergey Levine, CS285 (Berkeley):另一门优秀的深度 RL 课程。