CS224R Lecture 14: 探索与元探索

LaTeX 源码 · 备用 PDF · 观看视频

字段	内容
作者/整理	基于公开课程资料整理
来源	Stanford Online
日期	2025 年春季

探索问题的本质

为什么探索很重要

在强化学习中，智能体必须在利用（exploitation，选择已知最好的动作）和探索（exploration，尝试可能更好的动作）之间取得平衡。

探索难题的直觉展示：有些任务对人类简单，对从零开始的 RL 却几乎不可做

探索的核心困境

如果我们总是选择当前估值最高的动作（贪心策略），可能永远发现不了真正的最优策略。例如在多臂赌博机中，如果第一次拉臂恰好获得了正奖励，贪心策略会一直拉同一个臂，即使其他臂的期望奖励更高。

为什么 Montezuma's Revenge 成了经典探索基准

课程先用 Montezuma's Revenge 这种稀疏奖励游戏说明问题：拿到钥匙有奖励、开门有奖励、被 skull 杀死却未必立刻给出足够明确的负反馈，而完成任务的关键行为之间间隔又非常长。人类之所以知道要做什么，不是因为看到了 reward，而是因为理解了 sprite 的语义和任务结构。

Montezuma's Revenge：奖励稀疏、行为长链、语义理解缺失导致探索困难

把自己放到算法的位置上

讲者进一步用牌类游戏 Mao 做类比：你只知道 “违反规则会受罚”，但规则本身只能靠试错发现，而且规则未必直观。这恰好刻画了长时序稀疏奖励任务的本质困难。

Mao 类比：规则只能通过试错发现，任务越长、规则越隐蔽，探索越困难

探索和利用其实是同一个问题

课程强调，两种常见表述本质等价：

“如何发现需要复杂长链行为才能到达的高奖励策略？”
“何时该继续做当前已知最好的事，何时该尝试新行为？”

前者强调 temporally extended behavior，后者强调 exploration-exploitation trade-off，但它们都在问同一件事：今天愿不愿意承受一点损失，去换取明天可能更高的回报。

餐馆、广告投放、油井勘探：探索与利用的日常例子

探索之所以难，不只是因为动作空间大

真正棘手的地方是：很多关键探索行为在局部上看不到收益，甚至会让短期回报下降。于是如果训练信号只盯着即时表现，agent 就很容易被推向保守但次优的局部策略。

从 bandit 到大规模无结构 MDP：探索问题的理论难度迅速上升

探索在 RL 应用中的体现

机器人：探索不同的抓取策略、运动模式
大语言模型：在 RLHF/RL for reasoning 中，探索不同的推理路径
推荐系统：探索用户可能喜欢但尚未展示过的内容

本章小结

探索是所有 RL 问题的根本挑战之一。没有有效探索，智能体会陷入次优策略。

经典探索方法

Multi-Armed Bandit 设定

Multi-Armed Bandit

Bandit 问题是探索问题的最简化版本：\(K\) 个臂（动作），每个臂有未知的奖励分布 \(p(r | a)\)。没有状态转移，目标是在 \(T\) 轮交互中最大化累积奖励。遗憾（regret）定义为与最优臂的差距：

\[ \text{Regret}(T) = T \cdot \mu^* - \sum_{t=1}^T r_t \]

Bandit 里怎样定义 “好探索”

bandit 场景之所以重要，是因为这里还能较清楚地定义 “最优探索”。课程采用 regret 作为核心指标：比较你实际拿到的累计奖励，与始终拉最优臂时的期望回报之间的差距。

Bandit 中的最优性度量：Regret 而不是单次奖励

-Greedy

最简单的探索策略：以概率 \(1 - \epsilon\) 选择当前最优动作，以概率 \(\epsilon\) 随机选择。

-Greedy 的局限

\(\epsilon\)-Greedy 的探索是无方向的——它在所有动作上均匀随机探索，不考虑哪些动作更有信息价值。在动作空间大或环境复杂时，这种盲目探索效率极低。

Upper Confidence Bound (UCB)

UCB 算法

UCB 的核心思想是乐观主义（optimism in the face of uncertainty）：对不确定性高的动作赋予更高的估值，从而鼓励探索。

\[ a_t = \arg\max_a \left[\hat{\mu}_a + c \sqrt{\frac{\ln t}{N_a}}\right] \]

其中 \(\hat{\mu}_a\) 是动作 \(a\) 的经验均值，\(N_a\) 是动作 \(a\) 被选择的次数。第二项是不确定性奖励——被选择次数越少的动作，不确定性越高，越会被优先探索。

Thompson Sampling

Thompson Sampling 采用贝叶斯方法：

对每个动作的奖励分布维护一个后验分布 \(p(\mu_a | \text{data})\)
每轮从后验中采样：\(\tilde{\mu}_a \sim p(\mu_a | \text{data})\)
选择采样值最高的动作：\(a_t = \arg\max_a \tilde{\mu}_a\)
收集奖励后更新后验

Thompson Sampling 在实践中通常表现优异，且具有理论最优的 regret bound。

Bandit 探索的两条主线：optimism under uncertainty 与 probability matching

为什么 Bandit 理论依然是探索研究的起点

Bandit 看似太简单，但它仍然是理解探索问题的关键入口，因为这是少数我们还能给出 regret 保证、还能讨论 “最优探索” 的设定。进入长时序、部分可观测、高维状态的 MDP 之后，很多结论都不再直接成立，因此 UCB 和 Thompson Sampling 更像是保留下来的设计原则，而不是可原样照搬的算法模板。

从 Bandit 学到的三个设计原则

不确定性必须进入决策，而不是只看经验均值。
探索优劣要看长期累计代价，而不是单步表现。
一旦任务从 1-step bandit 变成长时序决策，探索难度会急剧放大。

本章小结

经典探索方法从简单的 \(\epsilon\)-greedy 到有原则的 UCB 和 Thompson Sampling，核心区别在于如何利用不确定性来指导探索。

深度 RL 中的探索

从 Bandit 到 MDP

在 MDP 中，探索问题更加复杂：

动作不仅影响即时奖励，还影响未来的状态
需要探索状态--动作对而非仅是动作
有些状态本身就很难到达，需要长时间的定向探索

基于计数的探索

Count-Based Exploration

基本思想：对访问次数少的状态--动作对给予额外的探索奖励：

\[ r_{\text{explore}}(s, a) = \frac{\beta}{\sqrt{N(s, a)}} \]

在深度 RL 中，由于状态空间连续且高维，无法直接计数。常用的近似方法包括：

哈希计数：将状态通过哈希函数映射到离散空间
密度模型：训练密度模型 \(\hat{p}(s)\)，用 \(-\log \hat{p}(s)\) 作为新颖性度量
RND（Random Network Distillation）：用随机网络的预测误差度量新颖性

基于好奇心的探索

另一种思路：探索奖励 = 模型预测误差。如果对某个状态的预测误差大，说明这个状态是"新颖的"，值得继续探索。

好奇心陷阱

基于预测误差的探索方法有一个著名的失败模式：噪声电视问题（noisy TV problem）。如果环境中存在本质上不可预测的随机性（如电视屏幕上的静态噪声），模型的预测误差永远不会降低，导致智能体被这种无意义的随机性"吸引"，无法继续有意义的探索。

为什么机器人和 LLM 很少从零探索

课程在这部分给出的结论相当务实：对于机器人控制和 LLM 这类巨大 MDP，从零开始做有效探索通常在计算上不可承受。工业界和前沿研究更常见的策略是：

使用 demonstrations 或预训练 base model 缩小搜索空间；
尽可能提供 shaped rewards；
把真正困难的探索留给更小的、结构化得更好的子问题。

在机器人和 LLM 中，通常依赖预训练、示范和 shaped reward，而非从零探索

本章小结

深度 RL 中的探索需要在连续高维空间中处理新颖性度量，count-based 方法和好奇心方法各有优势和局限。

元探索：学习如何探索

什么是元探索

Meta-Exploration

元探索（meta-exploration）将元学习的思想应用于探索问题：不是手工设计探索策略，而是学习一个探索策略。

在 meta-RL 的框架下：

外层（meta）学习如何在新任务上有效探索
内层（task）利用探索收集的数据快速适应新任务

Meta-RL 中的探索挑战

在 meta-RL 中，智能体在每个新任务上的前几次交互至关重要——它们决定了智能体能否快速推断出任务的特性。因此，元探索关注的是：在有限的交互次数内，如何收集最有信息量的数据。

与经典探索的区别

经典探索关注单个任务中的 exploration-exploitation 权衡。元探索关注的是跨任务的探索策略学习——训练一个能在新任务上有效探索的策略。这是一个更高层次的优化问题。

当测试时仍需探索：厨房找食材、LLM 推理选策略都属于 meta-RL 式探索

耦合问题：为什么端到端学探索经常失败

如果探索和执行都只通过最终任务奖励来训练，就会出现典型的 chicken-and-egg 困境：探索没做好，执行阶段拿不到好 reward；执行阶段一直失败，探索阶段也就收不到足够清晰的训练信号。

端到端 meta-learning with exploration 的 coupling problem

DREAM 和后验采样方法

讲者介绍了如何在 meta-RL 中实现有效探索：

维护对任务身份的信念（belief）
使用 Thompson Sampling 的思想指导探索
外层 RL 训练使内层探索策略最大化信息增益

替代策略一：后验采样、内在奖励与任务预测

课程先回顾了几类已有思路：PEARL 用 posterior sampling，MAME 用 intrinsic rewards，MetaCURE 用 task dynamics/reward prediction。它们的共同点是：不再把探索完全交给 end-to-end reward 信号，而是显式引入任务推断结构。

Alternative strategies：posterior sampling、intrinsic rewards、task dynamics prediction

DREAM：把探索和执行显式解耦

这节课真正的主角是 DREAM。它的关键想法不是直接学一个同时负责探索和执行的黑盒策略，而是分两步：

学会执行，同时找出真正决定任务差异的信息瓶颈表示。
再学一个探索策略，让它专门去恢复这些任务相关信息。

DREAM 的解耦思想：先识别任务相关信息，再训练探索去恢复这些信息

为什么信息瓶颈是必要的

如果不压缩任务表示，探索策略很容易被与任务无关的装饰性信息带偏。DREAM 借助 bottlenecked representation，只保留 wall color、食材位置等真正影响执行策略的变量，让探索策略的奖励更聚焦于 “找对信息”。

DREAM 的训练方式：执行策略学会依赖 bottlenecked task representation，探索策略学会恢复它

把信息恢复直接变成探索奖励

课程进一步把探索奖励写得很清楚：让探索策略收集的数据 \(D_{\text{train}}\) 尽可能有助于预测任务表示 \(z_i\)。这样 reward 不再依赖最终任务是否成功，而依赖 “本轮探索让我们对当前任务多了解了多少”。

DREAM 的核心奖励：per-step information gain，而不是最终任务 reward

信息瓶颈为什么值得单独建模

如果任务表示里塞进了太多与执行无关的细节，探索策略就会去恢复错误的信息，例如装饰、纹理或无关背景。课程专门回顾 variational information bottleneck 的原因就在这里：通过噪声和正则约束，把表示压到只剩执行真正需要的那部分任务差异。

Variational information bottleneck：压缩任务表示，只保留与执行有关的信息

理论与实验结果

slides 给出的结论很有代表性：在 bandit-like setting 中，DREAM 的样本复杂度优于 RL\(^2\)；在 3D visual navigation 这种稀疏奖励任务里，端到端方法会因为 coupling 问题显著掉队，而 DREAM 靠近似最优探索达到更高回报。

理论分析：DREAM 在某些设置下保留最优探索性质，同时显著改进样本复杂度

稀疏奖励 3D 视觉导航任务：先读标志，再绕障碍到达正确目标

稀疏奖励 3D 视觉导航中的实验结果：DREAM 接近最优，端到端方法受 coupling 影响明显

三类方案的总结：端到端、替代策略与解耦探索执行

本章小结

元探索将探索策略本身作为学习对象，通过在多个任务上训练来学习高效的探索行为。

总结与延伸

探索是 RL 的核心挑战，\(\epsilon\)-greedy 到 UCB/Thompson Sampling 形成了一个日益精细的工具链
深度 RL 中需要用密度模型或网络预测误差来近似新颖性
基于好奇心的方法需警惕噪声电视问题
元探索将"如何探索"本身作为可学习的能力
在机器人和 LLM 等真实应用中，有效探索直接决定了学习效率

应用外延：把 meta-exploration 用到计算机教育

课程最后还展示了一个很少见但很有启发性的方向：把 meta-RL 的探索策略用于自动批改和学生程序反馈。系统先学习 “该运行哪些测试、该看哪些行为信号最有信息量”，再更快地找出 bug、生成评分建议。

Meta-exploration 在程序反馈中的应用：探索哪些交互最能暴露学生代码问题

教育场景里的 “探索” 和传统 RL 有何不同

这里的探索不再是操控机器人或玩游戏，而是决定：为了判断学生程序哪里有问题，系统应该优先运行哪些交互、观察哪些信号、展示哪些视频片段。 这类探索的价值在于节省助教时间，同时让反馈更聚焦、更可操作。

Bounce 作业中的 learned exploration：不同交互会暴露不同类别的错误

教育任务	需要探索的信息	系统收益
交互式编程作业反馈	哪些测试情境最能触发 bug	更快定位错误来源
助教评分辅助	哪些证据最足以支持 rubric 打分	减少人工查看和重复判断
错误模式分析	哪些学生行为属于同一类失误	形成更可复用的反馈模板

Meta-exploration 在 CS 教育中的信息收集目标

AI-assisted grading 的课程实践：更快且更准确的助教评分流程

本讲总表

路线	核心思想	优势	主要问题
-greedy / UCB / Thompson	在 bandit 中用不确定性指导探索	可分析、可证明 regret	难直接扩展到大规模 MDP
Deep RL intrinsic exploration	用新颖性或预测误差鼓励探索	适配连续高维状态空间	易被噪声和伪新颖性误导
End-to-end meta-exploration	直接从任务 reward 学探索与执行	原理统一，理论上最优	coupling 问题导致训练困难
DREAM-style decoupling	先学任务关键信息，再学恢复它的探索	更易优化，实践效果好	依赖任务表示与信息瓶颈设计

Lecture 14 的探索方法地图

拓展阅读

Auer et al., “Finite-time Analysis of the Multiarmed Bandit Problem,” Machine Learning 2002
Bellemare et al., “Unifying Count-Based Exploration and Intrinsic Motivation,” NeurIPS 2016
Burda et al., “Exploration by Random Network Distillation,” ICLR 2019
Pathak et al., “Curiosity-driven Exploration by Self-Supervised Prediction,” ICML 2017
Liu et al., “Explore then Execute: Adapting without Rewards via Factorized Meta-Reinforcement Learning,” 2022