[CS25] Decision Transformer / RL — Aditya Grover

LaTeX 源码 · 观看视频

字段	内容
作者/整理	基于 Aditya Grover 在 Stanford CS25 公开讲座整理
来源	Stanford CS25
日期	2021年06月03日

引言：Transformer 统一决策制定

Aditya Grover 来自 UCLA（与 UC Berkeley 合作），介绍了将 Transformer 应用于强化学习的开创性工作——Decision Transformer。

Transformer 自 2017 年提出以来，已在多个领域取得突破：自然语言处理（GPT、BERT）、计算机视觉（ViT）、蛋白质折叠（AlphaFold）、代码生成（Codex）。一个自然的问题是：能否用 Transformer 统一决策制定（decision making）？

核心洞察

Decision Transformer 将强化学习重新定义为序列建模问题：给定过去的状态、动作和奖励序列，预测下一步应该采取的动作。这完全绕开了传统 RL 中的价值函数估计和策略梯度。

传统强化学习回顾

RL 的基本框架

强化学习的标准设置：

智能体在环境中按策略 \(\pi\) 选择动作
每步获得奖励 \(r_t\)，目标是最大化累积回报 \(R = \sum_{t} \gamma^t r_t\)
核心方法：Q-learning（价值函数）、Policy Gradient（策略梯度）

离线 RL 的挑战

在线 RL vs. 离线 RL

在线 RL：智能体边探索边学习，可以与环境交互
离线 RL：仅从预先收集的固定数据集学习，不再与环境交互
离线 RL 更实用（避免昂贵的环境交互），但面临分布偏移问题

本章小结

传统 RL 方法依赖价值函数估计或策略梯度，在离线设置下面临诸多挑战。Decision Transformer 提出了一种全新的范式。

Decision Transformer：将 RL 重构为序列建模

核心框架

Decision Transformer 的序列表示

将一条轨迹表示为 token 序列：

\[ \tau = (\hat{R}_1, s_1, a_1, \hat{R}_2, s_2, a_2, \ldots, \hat{R}_T, s_T, a_T) \]

其中 \(\hat{R}_t = \sum_{t'=t}^{T} r_{t'}\) 是从时刻 \(t\) 开始的累积回报（return-to-go）。

在推理时，通过设定期望的 \(\hat{R}_1\) 来条件化生成——告诉模型"我希望获得多高的总回报"，模型便会生成相应质量的动作序列。

架构细节

使用 GPT 架构（因果 Transformer，仅向左注意力）
每个时间步有三个 token：return-to-go \(\hat{R}_t\)、状态 \(s_t\)、动作 \(a_t\)
使用时间步嵌入（而非标准位置嵌入）
训练目标：给定历史序列，预测下一个动作

为什么用 return-to-go 而不是即时奖励？

即时奖励 \(r_t\) 告诉模型"刚才发生了什么"，而 return-to-go \(\hat{R}_t\) 告诉模型"未来还能获得多少回报"。后者提供了目标信号，使模型在推理时可以通过设定高 return-to-go 来引导行为。

本章小结

Decision Transformer 的核心创新是将 RL 问题转化为条件序列生成问题，用 GPT 架构直接学习"高回报 \(\rightarrow\) 好动作"的映射。

实验结果与分析

离线 RL 基准测试

在 Atari 和 OpenAI Gym 环境上，Decision Transformer 与最先进的无模型离线 RL 方法（如 CQL）表现相当甚至更优：

Atari：在多个游戏中达到或超过专家水平
OpenAI Gym：在 HalfCheetah、Hopper、Walker2d 等任务上有竞争力
Key-to-Door：在需要长期信用分配的稀疏奖励任务上表现出色

关键优势：长期信用分配

稀疏奖励下的优势

在 Key-to-Door 环境中，智能体必须先拿到钥匙，再开门，中间有一段空白阶段。传统 RL 在这种稀疏奖励设置下难以进行信用分配，而 Decision Transformer 通过 return-to-go 条件化天然地处理了这个问题——高 return-to-go 直接指向"拿钥匙\(\rightarrow\)开门"的成功轨迹。

条件化生成的灵活性

通过改变推理时的目标 return-to-go，可以控制行为的质量：

高 return-to-go \(\rightarrow\) 最优行为
中等 return-to-go \(\rightarrow\) 次优但可行的行为
这提供了一种直观的"旋钮"来控制智能体的表现

本章小结

Decision Transformer 在离线 RL 基准上表现出色，特别是在稀疏奖励和长期规划方面具有天然优势。

讨论与局限

与传统 RL 的比较

Decision Transformer 不是万能的

目前主要在离线设置下验证，在线 RL（需要探索）的效果尚待研究
性能受限于训练数据的质量——如果数据中没有好的轨迹，模型也无法生成好的行为
对于需要精确价值估计的任务，传统方法可能更合适

未来方向

将 Decision Transformer 扩展到在线 RL场景
与其他序列模型（如 RNN、State Space Models）的比较
多模态决策：结合视觉、语言和动作
更大规模的预训练和迁移学习

本章小结

Decision Transformer 提出了 RL 的全新范式，但仍有诸多开放问题，特别是在在线学习和探索方面。

总结与延伸

Decision Transformer 的贡献在于揭示了一个深刻的联系：序列建模和决策制定可以统一在同一个框架下。通过将 RL 轨迹视为 token 序列，利用 Transformer 的强大序列建模能力，我们可以绕开传统 RL 中的许多难题（如价值函数逼近、时序差分学习等）。

拓展阅读

Chen et al., “Decision Transformer: Reinforcement Learning via Sequence Modeling,” NeurIPS 2021
Janner et al., “Offline Reinforcement Learning as One Big Sequence Modeling Problem,” NeurIPS 2021
Kumar et al., “Conservative Q-Learning for Offline RL,” NeurIPS 2020