跳转至

CS224R Lecture 14: 探索与元探索

LaTeX 源码 · 备用 PDF · 观看视频

字段 内容
作者/整理 基于公开课程资料整理
来源 Stanford Online
日期 2025 年春季

CS224R Lecture 14: 探索与元探索

探索问题的本质

为什么探索很重要

在强化学习中,智能体必须在利用(exploitation,选择已知最好的动作)和探索(exploration,尝试可能更好的动作)之间取得平衡。

探索难题的直觉展示:有些任务对人类简单,对从零开始的 RL 却几乎不可做

探索的核心困境

如果我们总是选择当前估值最高的动作(贪心策略),可能永远发现不了真正的最优策略。例如在多臂赌博机中,如果第一次拉臂恰好获得了正奖励,贪心策略会一直拉同一个臂,即使其他臂的期望奖励更高。

为什么 Montezuma's Revenge 成了经典探索基准

课程先用 Montezuma's Revenge 这种稀疏奖励游戏说明问题:拿到钥匙有奖励、开门有奖励、被 skull 杀死却未必立刻给出足够明确的负反馈,而完成任务的关键行为之间间隔又非常长。人类之所以知道要做什么,不是因为看到了 reward,而是因为理解了 sprite 的语义和任务结构。

Montezuma's Revenge:奖励稀疏、行为长链、语义理解缺失导致探索困难

把自己放到算法的位置上

讲者进一步用牌类游戏 Mao 做类比:你只知道 “违反规则会受罚”,但规则本身只能靠试错发现,而且规则未必直观。这恰好刻画了长时序稀疏奖励任务的本质困难。

Mao 类比:规则只能通过试错发现,任务越长、规则越隐蔽,探索越困难

探索和利用其实是同一个问题

课程强调,两种常见表述本质等价:

  • “如何发现需要复杂长链行为才能到达的高奖励策略?”
  • “何时该继续做当前已知最好的事,何时该尝试新行为?”

前者强调 temporally extended behavior,后者强调 exploration-exploitation trade-off,但它们都在问同一件事:今天愿不愿意承受一点损失,去换取明天可能更高的回报。

餐馆、广告投放、油井勘探:探索与利用的日常例子

探索之所以难,不只是因为动作空间大

真正棘手的地方是:很多关键探索行为在局部上看不到收益,甚至会让短期回报下降。于是如果训练信号只盯着即时表现,agent 就很容易被推向保守但次优的局部策略。

从 bandit 到大规模无结构 MDP:探索问题的理论难度迅速上升

探索在 RL 应用中的体现

  • 机器人:探索不同的抓取策略、运动模式
  • 大语言模型:在 RLHF/RL for reasoning 中,探索不同的推理路径
  • 推荐系统:探索用户可能喜欢但尚未展示过的内容

本章小结

探索是所有 RL 问题的根本挑战之一。没有有效探索,智能体会陷入次优策略。

经典探索方法

Multi-Armed Bandit 设定

Multi-Armed Bandit

Bandit 问题是探索问题的最简化版本:\(K\) 个臂(动作),每个臂有未知的奖励分布 \(p(r | a)\)。没有状态转移,目标是在 \(T\) 轮交互中最大化累积奖励。遗憾(regret)定义为与最优臂的差距:

\[ \text{Regret}(T) = T \cdot \mu^* - \sum_{t=1}^T r_t \]

Bandit 里怎样定义 “好探索”

bandit 场景之所以重要,是因为这里还能较清楚地定义 “最优探索”。课程采用 regret 作为核心指标:比较你实际拿到的累计奖励,与始终拉最优臂时的期望回报之间的差距。

Bandit 中的最优性度量:Regret 而不是单次奖励

-Greedy

最简单的探索策略:以概率 \(1 - \epsilon\) 选择当前最优动作,以概率 \(\epsilon\) 随机选择。

-Greedy 的局限

\(\epsilon\)-Greedy 的探索是无方向的——它在所有动作上均匀随机探索,不考虑哪些动作更有信息价值。在动作空间大或环境复杂时,这种盲目探索效率极低。

Upper Confidence Bound (UCB)

UCB 算法

UCB 的核心思想是乐观主义(optimism in the face of uncertainty):对不确定性高的动作赋予更高的估值,从而鼓励探索。

\[ a_t = \arg\max_a \left[\hat{\mu}_a + c \sqrt{\frac{\ln t}{N_a}}\right] \]

其中 \(\hat{\mu}_a\) 是动作 \(a\) 的经验均值,\(N_a\) 是动作 \(a\) 被选择的次数。第二项是不确定性奖励——被选择次数越少的动作,不确定性越高,越会被优先探索。

Thompson Sampling

Thompson Sampling

Thompson Sampling 采用贝叶斯方法:

  1. 对每个动作的奖励分布维护一个后验分布 \(p(\mu_a | \text{data})\)
  2. 每轮从后验中采样:\(\tilde{\mu}_a \sim p(\mu_a | \text{data})\)
  3. 选择采样值最高的动作:\(a_t = \arg\max_a \tilde{\mu}_a\)
  4. 收集奖励后更新后验

Thompson Sampling 在实践中通常表现优异,且具有理论最优的 regret bound。

Bandit 探索的两条主线:optimism under uncertainty 与 probability matching

为什么 Bandit 理论依然是探索研究的起点

Bandit 看似太简单,但它仍然是理解探索问题的关键入口,因为这是少数我们还能给出 regret 保证、还能讨论 “最优探索” 的设定。进入长时序、部分可观测、高维状态的 MDP 之后,很多结论都不再直接成立,因此 UCB 和 Thompson Sampling 更像是保留下来的设计原则,而不是可原样照搬的算法模板。

从 Bandit 学到的三个设计原则

  1. 不确定性必须进入决策,而不是只看经验均值。
  2. 探索优劣要看长期累计代价,而不是单步表现。
  3. 一旦任务从 1-step bandit 变成长时序决策,探索难度会急剧放大。

本章小结

经典探索方法从简单的 \(\epsilon\)-greedy 到有原则的 UCB 和 Thompson Sampling,核心区别在于如何利用不确定性来指导探索。

深度 RL 中的探索

从 Bandit 到 MDP

在 MDP 中,探索问题更加复杂:

  • 动作不仅影响即时奖励,还影响未来的状态
  • 需要探索状态--动作对而非仅是动作
  • 有些状态本身就很难到达,需要长时间的定向探索

基于计数的探索

Count-Based Exploration

基本思想:对访问次数少的状态--动作对给予额外的探索奖励:

\[ r_{\text{explore}}(s, a) = \frac{\beta}{\sqrt{N(s, a)}} \]

在深度 RL 中,由于状态空间连续且高维,无法直接计数。常用的近似方法包括:

  • 哈希计数:将状态通过哈希函数映射到离散空间
  • 密度模型:训练密度模型 \(\hat{p}(s)\),用 \(-\log \hat{p}(s)\) 作为新颖性度量
  • RND(Random Network Distillation):用随机网络的预测误差度量新颖性

基于好奇心的探索

另一种思路:探索奖励 = 模型预测误差。如果对某个状态的预测误差大,说明这个状态是"新颖的",值得继续探索。

好奇心陷阱

基于预测误差的探索方法有一个著名的失败模式:噪声电视问题(noisy TV problem)。如果环境中存在本质上不可预测的随机性(如电视屏幕上的静态噪声),模型的预测误差永远不会降低,导致智能体被这种无意义的随机性"吸引",无法继续有意义的探索。

为什么机器人和 LLM 很少从零探索

课程在这部分给出的结论相当务实:对于机器人控制和 LLM 这类巨大 MDP,从零开始做有效探索通常在计算上不可承受。工业界和前沿研究更常见的策略是:

  • 使用 demonstrations 或预训练 base model 缩小搜索空间;
  • 尽可能提供 shaped rewards;
  • 把真正困难的探索留给更小的、结构化得更好的子问题。

在机器人和 LLM 中,通常依赖预训练、示范和 shaped reward,而非从零探索

本章小结

深度 RL 中的探索需要在连续高维空间中处理新颖性度量,count-based 方法和好奇心方法各有优势和局限。

元探索:学习如何探索

什么是元探索

Meta-Exploration

元探索(meta-exploration)将元学习的思想应用于探索问题:不是手工设计探索策略,而是学习一个探索策略

在 meta-RL 的框架下:

  • 外层(meta)学习如何在新任务上有效探索
  • 内层(task)利用探索收集的数据快速适应新任务

Meta-RL 中的探索挑战

在 meta-RL 中,智能体在每个新任务上的前几次交互至关重要——它们决定了智能体能否快速推断出任务的特性。因此,元探索关注的是:在有限的交互次数内,如何收集最有信息量的数据

与经典探索的区别

经典探索关注单个任务中的 exploration-exploitation 权衡。元探索关注的是跨任务的探索策略学习——训练一个能在新任务上有效探索的策略。这是一个更高层次的优化问题。

当测试时仍需探索:厨房找食材、LLM 推理选策略都属于 meta-RL 式探索

耦合问题:为什么端到端学探索经常失败

如果探索和执行都只通过最终任务奖励来训练,就会出现典型的 chicken-and-egg 困境:探索没做好,执行阶段拿不到好 reward;执行阶段一直失败,探索阶段也就收不到足够清晰的训练信号。

端到端 meta-learning with exploration 的 coupling problem

DREAM 和后验采样方法

讲者介绍了如何在 meta-RL 中实现有效探索:

  • 维护对任务身份的信念(belief)
  • 使用 Thompson Sampling 的思想指导探索
  • 外层 RL 训练使内层探索策略最大化信息增益

替代策略一:后验采样、内在奖励与任务预测

课程先回顾了几类已有思路:PEARL 用 posterior sampling,MAME 用 intrinsic rewards,MetaCURE 用 task dynamics/reward prediction。它们的共同点是:不再把探索完全交给 end-to-end reward 信号,而是显式引入任务推断结构。

Alternative strategies:posterior sampling、intrinsic rewards、task dynamics prediction

DREAM:把探索和执行显式解耦

这节课真正的主角是 DREAM。它的关键想法不是直接学一个同时负责探索和执行的黑盒策略,而是分两步:

  1. 学会执行,同时找出真正决定任务差异的信息瓶颈表示。
  2. 再学一个探索策略,让它专门去恢复这些任务相关信息。

DREAM 的解耦思想:先识别任务相关信息,再训练探索去恢复这些信息

为什么信息瓶颈是必要的

如果不压缩任务表示,探索策略很容易被与任务无关的装饰性信息带偏。DREAM 借助 bottlenecked representation,只保留 wall color、食材位置等真正影响执行策略的变量,让探索策略的奖励更聚焦于 “找对信息”。

DREAM 的训练方式:执行策略学会依赖 bottlenecked task representation,探索策略学会恢复它

把信息恢复直接变成探索奖励

课程进一步把探索奖励写得很清楚:让探索策略收集的数据 \(D_{\text{train}}\) 尽可能有助于预测任务表示 \(z_i\)。这样 reward 不再依赖最终任务是否成功,而依赖 “本轮探索让我们对当前任务多了解了多少”。

DREAM 的核心奖励:per-step information gain,而不是最终任务 reward

信息瓶颈为什么值得单独建模

如果任务表示里塞进了太多与执行无关的细节,探索策略就会去恢复错误的信息,例如装饰、纹理或无关背景。课程专门回顾 variational information bottleneck 的原因就在这里:通过噪声和正则约束,把表示压到只剩执行真正需要的那部分任务差异。

Variational information bottleneck:压缩任务表示,只保留与执行有关的信息

理论与实验结果

slides 给出的结论很有代表性:在 bandit-like setting 中,DREAM 的样本复杂度优于 RL\(^2\);在 3D visual navigation 这种稀疏奖励任务里,端到端方法会因为 coupling 问题显著掉队,而 DREAM 靠近似最优探索达到更高回报。

理论分析:DREAM 在某些设置下保留最优探索性质,同时显著改进样本复杂度

稀疏奖励 3D 视觉导航任务:先读标志,再绕障碍到达正确目标

稀疏奖励 3D 视觉导航中的实验结果:DREAM 接近最优,端到端方法受 coupling 影响明显

三类方案的总结:端到端、替代策略与解耦探索执行

本章小结

元探索将探索策略本身作为学习对象,通过在多个任务上训练来学习高效的探索行为。

总结与延伸

  1. 探索是 RL 的核心挑战,\(\epsilon\)-greedy 到 UCB/Thompson Sampling 形成了一个日益精细的工具链
  2. 深度 RL 中需要用密度模型或网络预测误差来近似新颖性
  3. 基于好奇心的方法需警惕噪声电视问题
  4. 元探索将"如何探索"本身作为可学习的能力
  5. 在机器人和 LLM 等真实应用中,有效探索直接决定了学习效率

应用外延:把 meta-exploration 用到计算机教育

课程最后还展示了一个很少见但很有启发性的方向:把 meta-RL 的探索策略用于自动批改和学生程序反馈。系统先学习 “该运行哪些测试、该看哪些行为信号最有信息量”,再更快地找出 bug、生成评分建议。

Meta-exploration 在程序反馈中的应用:探索哪些交互最能暴露学生代码问题

教育场景里的 “探索” 和传统 RL 有何不同

这里的探索不再是操控机器人或玩游戏,而是决定:为了判断学生程序哪里有问题,系统应该优先运行哪些交互、观察哪些信号、展示哪些视频片段。 这类探索的价值在于节省助教时间,同时让反馈更聚焦、更可操作。

Bounce 作业中的 learned exploration:不同交互会暴露不同类别的错误

教育任务 需要探索的信息 系统收益
交互式编程作业反馈 哪些测试情境最能触发 bug 更快定位错误来源
助教评分辅助 哪些证据最足以支持 rubric 打分 减少人工查看和重复判断
错误模式分析 哪些学生行为属于同一类失误 形成更可复用的反馈模板
Meta-exploration 在 CS 教育中的信息收集目标

AI-assisted grading 的课程实践:更快且更准确的助教评分流程

本讲总表

路线 核心思想 优势 主要问题
-greedy / UCB / Thompson 在 bandit 中用不确定性指导探索 可分析、可证明 regret 难直接扩展到大规模 MDP
Deep RL intrinsic exploration 用新颖性或预测误差鼓励探索 适配连续高维状态空间 易被噪声和伪新颖性误导
End-to-end meta-exploration 直接从任务 reward 学探索与执行 原理统一,理论上最优 coupling 问题导致训练困难
DREAM-style decoupling 先学任务关键信息,再学恢复它的探索 更易优化,实践效果好 依赖任务表示与信息瓶颈设计
Lecture 14 的探索方法地图

拓展阅读

  • Auer et al., “Finite-time Analysis of the Multiarmed Bandit Problem,” Machine Learning 2002
  • Bellemare et al., “Unifying Count-Based Exploration and Intrinsic Motivation,” NeurIPS 2016
  • Burda et al., “Exploration by Random Network Distillation,” ICLR 2019
  • Pathak et al., “Curiosity-driven Exploration by Self-Supervised Prediction,” ICML 2017
  • Liu et al., “Explore then Execute: Adapting without Rewards via Factorized Meta-Reinforcement Learning,” 2022