跳转至

从 PG 到 TRPO 到 PPO

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于公开课程资料整理
来源 五道口纳什
日期 2025

从 PG 到 TRPO 到 PPO

引言

本期主线:从 Policy Gradient (PG) 到 TRPO 到 PPO,串联核心公式之间的过渡关系。

核心概念链

Reward \(\to\) 期望 \(\to\) 状态价值函数 \(V(s)\) \(\to\) 状态动作价值函数 \(Q(s,a)\) \(\to\) Advantage \(A(s,a)\) \(\to\) On-policy / Off-policy \(\to\) 重要性采样

PPO Clip 目标函数

PPO Clip 是策略优化(Policy Optimization)方法。优化对象是策略(Policy Network):输入状态,输出动作的概率分布。

\[ L^{\text{CLIP}} = \mathbb{E}\left[\min\left(r_t \hat{A}_t,\; \text{clip}(r_t, 1{-}\epsilon, 1{+}\epsilon)\hat{A}_t\right)\right] \]

策略 vs. 价值

  • 策略网络 \(\pi_\theta(a|s)\):输入状态,输出动作概率分布
  • DQN:输入状态+动作,输出 \(Q(s,a)\)
  • PPO 属于策略优化方法,DQN 属于价值方法

从 PG 到 TRPO 到 PPO

Vanilla PG

\[ \nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta}\left[\nabla_\theta \log \pi_\theta(a|s) \cdot \hat{A}(s,a)\right] \]

TRPO: 信任域约束

TRPO 在 PG 基础上加入 KL 散度约束,限制策略更新幅度:

\[ \max_\theta \mathbb{E}\left[\frac{\pi_\theta}{\pi_{\theta_\text{old}}} \hat{A}\right] \quad \text{s.t.} \quad D_{KL}(\pi_{\theta_\text{old}} \| \pi_\theta) \le \delta \]

PPO: Clip 替代 KL 约束

PPO 用 clip 机制替代 TRPO 的 KL 约束,实现更简单高效:重要性比率 \(r_t\) 被限制在 \([1{-}\epsilon, 1{+}\epsilon]\) 范围内。

本章小结

PG \(\to\) TRPO \(\to\) PPO 是从朴素到约束到高效的演进。PPO 在保持训练稳定性的同时大幅简化了实现。

工程视角:为什么 PPO 成为默认选项

复杂度、稳定性与可实现性的折中

课程虽然只用 15 分钟讲解 PG、TRPO、PPO 的演化,但背后的工程结论非常明确:PPO 之所以流行,不是因为它在所有 benchmark 上都绝对最优,而是因为它在稳定性、实现门槛和训练效率之间取得了最平衡的折中。

方法 优点 主要代价 适用判断
PG 概念最直接 方差高、更新不稳 用于理解基本原理
TRPO 理论约束更强 二阶近似和实现复杂 更适合研究型推导
PPO 稳定且实现简单 仍需精调 clip/advantage 工程实践的默认起点
PG、TRPO、PPO 在工程中的典型取舍

不要把 PPO 当作“免调参算法”

PPO 只是把 TRPO 的复杂约束换成了更易用的剪裁目标,并不意味着训练就会自动稳定。batch 大小、优势归一化、reward 尺度和 rollout 质量依旧会直接影响结果。

本章小结

从工程落地角度看,PPO 是一个高性价比基线:先用它搭通训练闭环,再决定是否有必要引入更复杂的约束或更新规则,通常比一开始就追求“最强算法”更现实。

总结与延伸

  1. PG 是最基础的策略梯度方法
  2. TRPO 通过 KL 约束保证单步更新不过大
  3. PPO 用 clip 替代 KL,简单高效,是当前标准
  4. 核心概念:Reward、Advantage、On/Off-policy、重要性采样