[CS25] Decision Transformer / RL — Aditya Grover
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于 Aditya Grover 在 Stanford CS25 公开讲座整理 |
| 来源 | Stanford CS25 |
| 日期 | 2021年06月03日 |
![[CS25] Decision Transformer / RL — Aditya Grover](cover.jpg)
引言:Transformer 统一决策制定
Aditya Grover 来自 UCLA(与 UC Berkeley 合作),介绍了将 Transformer 应用于强化学习的开创性工作——Decision Transformer。
Transformer 自 2017 年提出以来,已在多个领域取得突破:自然语言处理(GPT、BERT)、计算机视觉(ViT)、蛋白质折叠(AlphaFold)、代码生成(Codex)。一个自然的问题是:能否用 Transformer 统一决策制定(decision making)?
核心洞察
Decision Transformer 将强化学习重新定义为序列建模问题:给定过去的状态、动作和奖励序列,预测下一步应该采取的动作。这完全绕开了传统 RL 中的价值函数估计和策略梯度。
传统强化学习回顾
RL 的基本框架
强化学习的标准设置:
- 智能体在环境中按策略 \(\pi\) 选择动作
- 每步获得奖励 \(r_t\),目标是最大化累积回报 \(R = \sum_{t} \gamma^t r_t\)
- 核心方法:Q-learning(价值函数)、Policy Gradient(策略梯度)
离线 RL 的挑战
在线 RL vs. 离线 RL
- 在线 RL:智能体边探索边学习,可以与环境交互
- 离线 RL:仅从预先收集的固定数据集学习,不再与环境交互
- 离线 RL 更实用(避免昂贵的环境交互),但面临分布偏移问题
本章小结
传统 RL 方法依赖价值函数估计或策略梯度,在离线设置下面临诸多挑战。Decision Transformer 提出了一种全新的范式。
Decision Transformer:将 RL 重构为序列建模
核心框架
Decision Transformer 的序列表示
将一条轨迹表示为 token 序列:
其中 \(\hat{R}_t = \sum_{t'=t}^{T} r_{t'}\) 是从时刻 \(t\) 开始的累积回报(return-to-go)。
在推理时,通过设定期望的 \(\hat{R}_1\) 来条件化生成——告诉模型"我希望获得多高的总回报",模型便会生成相应质量的动作序列。
架构细节
- 使用 GPT 架构(因果 Transformer,仅向左注意力)
- 每个时间步有三个 token:return-to-go \(\hat{R}_t\)、状态 \(s_t\)、动作 \(a_t\)
- 使用时间步嵌入(而非标准位置嵌入)
- 训练目标:给定历史序列,预测下一个动作
为什么用 return-to-go 而不是即时奖励?
即时奖励 \(r_t\) 告诉模型"刚才发生了什么",而 return-to-go \(\hat{R}_t\) 告诉模型"未来还能获得多少回报"。后者提供了目标信号,使模型在推理时可以通过设定高 return-to-go 来引导行为。
本章小结
Decision Transformer 的核心创新是将 RL 问题转化为条件序列生成问题,用 GPT 架构直接学习"高回报 \(\rightarrow\) 好动作"的映射。
实验结果与分析
离线 RL 基准测试
在 Atari 和 OpenAI Gym 环境上,Decision Transformer 与最先进的无模型离线 RL 方法(如 CQL)表现相当甚至更优:
- Atari:在多个游戏中达到或超过专家水平
- OpenAI Gym:在 HalfCheetah、Hopper、Walker2d 等任务上有竞争力
- Key-to-Door:在需要长期信用分配的稀疏奖励任务上表现出色
关键优势:长期信用分配
稀疏奖励下的优势
在 Key-to-Door 环境中,智能体必须先拿到钥匙,再开门,中间有一段空白阶段。传统 RL 在这种稀疏奖励设置下难以进行信用分配,而 Decision Transformer 通过 return-to-go 条件化天然地处理了这个问题——高 return-to-go 直接指向"拿钥匙\(\rightarrow\)开门"的成功轨迹。
条件化生成的灵活性
通过改变推理时的目标 return-to-go,可以控制行为的质量:
- 高 return-to-go \(\rightarrow\) 最优行为
- 中等 return-to-go \(\rightarrow\) 次优但可行的行为
- 这提供了一种直观的"旋钮"来控制智能体的表现
本章小结
Decision Transformer 在离线 RL 基准上表现出色,特别是在稀疏奖励和长期规划方面具有天然优势。
讨论与局限
与传统 RL 的比较
Decision Transformer 不是万能的
- 目前主要在离线设置下验证,在线 RL(需要探索)的效果尚待研究
- 性能受限于训练数据的质量——如果数据中没有好的轨迹,模型也无法生成好的行为
- 对于需要精确价值估计的任务,传统方法可能更合适
未来方向
- 将 Decision Transformer 扩展到在线 RL场景
- 与其他序列模型(如 RNN、State Space Models)的比较
- 多模态决策:结合视觉、语言和动作
- 更大规模的预训练和迁移学习
本章小结
Decision Transformer 提出了 RL 的全新范式,但仍有诸多开放问题,特别是在在线学习和探索方面。
总结与延伸
Decision Transformer 的贡献在于揭示了一个深刻的联系:序列建模和决策制定可以统一在同一个框架下。通过将 RL 轨迹视为 token 序列,利用 Transformer 的强大序列建模能力,我们可以绕开传统 RL 中的许多难题(如价值函数逼近、时序差分学习等)。
拓展阅读
- Chen et al., “Decision Transformer: Reinforcement Learning via Sequence Modeling,” NeurIPS 2021
- Janner et al., “Offline Reinforcement Learning as One Big Sequence Modeling Problem,” NeurIPS 2021
- Kumar et al., “Conservative Q-Learning for Offline RL,” NeurIPS 2020