跳转至

[CS25] Decision Transformer / RL — Aditya Grover

LaTeX 源码 · 备用 PDF · 观看视频

字段 内容
作者/整理 基于 Aditya Grover 在 Stanford CS25 公开讲座整理
来源 Stanford CS25
日期 2021年06月03日

[CS25] Decision Transformer / RL — Aditya Grover

引言:Transformer 统一决策制定

Aditya Grover 来自 UCLA(与 UC Berkeley 合作),介绍了将 Transformer 应用于强化学习的开创性工作——Decision Transformer

Transformer 自 2017 年提出以来,已在多个领域取得突破:自然语言处理(GPT、BERT)、计算机视觉(ViT)、蛋白质折叠(AlphaFold)、代码生成(Codex)。一个自然的问题是:能否用 Transformer 统一决策制定(decision making)?

核心洞察

Decision Transformer 将强化学习重新定义为序列建模问题:给定过去的状态、动作和奖励序列,预测下一步应该采取的动作。这完全绕开了传统 RL 中的价值函数估计和策略梯度。

传统强化学习回顾

RL 的基本框架

强化学习的标准设置:

  • 智能体在环境中按策略 \(\pi\) 选择动作
  • 每步获得奖励 \(r_t\),目标是最大化累积回报 \(R = \sum_{t} \gamma^t r_t\)
  • 核心方法:Q-learning(价值函数)、Policy Gradient(策略梯度)

离线 RL 的挑战

在线 RL vs. 离线 RL

  • 在线 RL:智能体边探索边学习,可以与环境交互
  • 离线 RL:仅从预先收集的固定数据集学习,不再与环境交互
  • 离线 RL 更实用(避免昂贵的环境交互),但面临分布偏移问题

本章小结

传统 RL 方法依赖价值函数估计或策略梯度,在离线设置下面临诸多挑战。Decision Transformer 提出了一种全新的范式。

Decision Transformer:将 RL 重构为序列建模

核心框架

Decision Transformer 的序列表示

将一条轨迹表示为 token 序列:

\[ \tau = (\hat{R}_1, s_1, a_1, \hat{R}_2, s_2, a_2, \ldots, \hat{R}_T, s_T, a_T) \]

其中 \(\hat{R}_t = \sum_{t'=t}^{T} r_{t'}\) 是从时刻 \(t\) 开始的累积回报(return-to-go)。

在推理时,通过设定期望的 \(\hat{R}_1\)条件化生成——告诉模型"我希望获得多高的总回报",模型便会生成相应质量的动作序列。

架构细节

  • 使用 GPT 架构(因果 Transformer,仅向左注意力)
  • 每个时间步有三个 token:return-to-go \(\hat{R}_t\)、状态 \(s_t\)、动作 \(a_t\)
  • 使用时间步嵌入(而非标准位置嵌入)
  • 训练目标:给定历史序列,预测下一个动作

为什么用 return-to-go 而不是即时奖励?

即时奖励 \(r_t\) 告诉模型"刚才发生了什么",而 return-to-go \(\hat{R}_t\) 告诉模型"未来还能获得多少回报"。后者提供了目标信号,使模型在推理时可以通过设定高 return-to-go 来引导行为。

本章小结

Decision Transformer 的核心创新是将 RL 问题转化为条件序列生成问题,用 GPT 架构直接学习"高回报 \(\rightarrow\) 好动作"的映射。

实验结果与分析

离线 RL 基准测试

在 Atari 和 OpenAI Gym 环境上,Decision Transformer 与最先进的无模型离线 RL 方法(如 CQL)表现相当甚至更优:

  • Atari:在多个游戏中达到或超过专家水平
  • OpenAI Gym:在 HalfCheetah、Hopper、Walker2d 等任务上有竞争力
  • Key-to-Door:在需要长期信用分配的稀疏奖励任务上表现出色

关键优势:长期信用分配

稀疏奖励下的优势

在 Key-to-Door 环境中,智能体必须先拿到钥匙,再开门,中间有一段空白阶段。传统 RL 在这种稀疏奖励设置下难以进行信用分配,而 Decision Transformer 通过 return-to-go 条件化天然地处理了这个问题——高 return-to-go 直接指向"拿钥匙\(\rightarrow\)开门"的成功轨迹。

条件化生成的灵活性

通过改变推理时的目标 return-to-go,可以控制行为的质量:

  • 高 return-to-go \(\rightarrow\) 最优行为
  • 中等 return-to-go \(\rightarrow\) 次优但可行的行为
  • 这提供了一种直观的"旋钮"来控制智能体的表现

本章小结

Decision Transformer 在离线 RL 基准上表现出色,特别是在稀疏奖励和长期规划方面具有天然优势。

讨论与局限

与传统 RL 的比较

Decision Transformer 不是万能的

  • 目前主要在离线设置下验证,在线 RL(需要探索)的效果尚待研究
  • 性能受限于训练数据的质量——如果数据中没有好的轨迹,模型也无法生成好的行为
  • 对于需要精确价值估计的任务,传统方法可能更合适

未来方向

  • 将 Decision Transformer 扩展到在线 RL场景
  • 与其他序列模型(如 RNN、State Space Models)的比较
  • 多模态决策:结合视觉、语言和动作
  • 更大规模的预训练和迁移学习

本章小结

Decision Transformer 提出了 RL 的全新范式,但仍有诸多开放问题,特别是在在线学习和探索方面。

总结与延伸

Decision Transformer 的贡献在于揭示了一个深刻的联系:序列建模和决策制定可以统一在同一个框架下。通过将 RL 轨迹视为 token 序列,利用 Transformer 的强大序列建模能力,我们可以绕开传统 RL 中的许多难题(如价值函数逼近、时序差分学习等)。

拓展阅读

  • Chen et al., “Decision Transformer: Reinforcement Learning via Sequence Modeling,” NeurIPS 2021
  • Janner et al., “Offline Reinforcement Learning as One Big Sequence Modeling Problem,” NeurIPS 2021
  • Kumar et al., “Conservative Q-Learning for Offline RL,” NeurIPS 2020