从 PG 到 TRPO 到 PPO
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | 五道口纳什 |
| 日期 | 2025 |

引言
本期主线:从 Policy Gradient (PG) 到 TRPO 到 PPO,串联核心公式之间的过渡关系。
核心概念链
Reward \(\to\) 期望 \(\to\) 状态价值函数 \(V(s)\) \(\to\) 状态动作价值函数 \(Q(s,a)\) \(\to\) Advantage \(A(s,a)\) \(\to\) On-policy / Off-policy \(\to\) 重要性采样
PPO Clip 目标函数
PPO Clip 是策略优化(Policy Optimization)方法。优化对象是策略(Policy Network):输入状态,输出动作的概率分布。
策略 vs. 价值
- 策略网络 \(\pi_\theta(a|s)\):输入状态,输出动作概率分布
- DQN:输入状态+动作,输出 \(Q(s,a)\)
- PPO 属于策略优化方法,DQN 属于价值方法
从 PG 到 TRPO 到 PPO
Vanilla PG
TRPO: 信任域约束
TRPO 在 PG 基础上加入 KL 散度约束,限制策略更新幅度:
PPO: Clip 替代 KL 约束
PPO 用 clip 机制替代 TRPO 的 KL 约束,实现更简单高效:重要性比率 \(r_t\) 被限制在 \([1{-}\epsilon, 1{+}\epsilon]\) 范围内。
本章小结
PG \(\to\) TRPO \(\to\) PPO 是从朴素到约束到高效的演进。PPO 在保持训练稳定性的同时大幅简化了实现。
工程视角:为什么 PPO 成为默认选项
复杂度、稳定性与可实现性的折中
课程虽然只用 15 分钟讲解 PG、TRPO、PPO 的演化,但背后的工程结论非常明确:PPO 之所以流行,不是因为它在所有 benchmark 上都绝对最优,而是因为它在稳定性、实现门槛和训练效率之间取得了最平衡的折中。
| 方法 | 优点 | 主要代价 | 适用判断 |
|---|---|---|---|
| PG | 概念最直接 | 方差高、更新不稳 | 用于理解基本原理 |
| TRPO | 理论约束更强 | 二阶近似和实现复杂 | 更适合研究型推导 |
| PPO | 稳定且实现简单 | 仍需精调 clip/advantage | 工程实践的默认起点 |
不要把 PPO 当作“免调参算法”
PPO 只是把 TRPO 的复杂约束换成了更易用的剪裁目标,并不意味着训练就会自动稳定。batch 大小、优势归一化、reward 尺度和 rollout 质量依旧会直接影响结果。
本章小结
从工程落地角度看,PPO 是一个高性价比基线:先用它搭通训练闭环,再决定是否有必要引入更复杂的约束或更新规则,通常比一开始就追求“最强算法”更现实。
总结与延伸
- PG 是最基础的策略梯度方法
- TRPO 通过 KL 约束保证单步更新不过大
- PPO 用 clip 替代 KL,简单高效,是当前标准
- 核心概念:Reward、Advantage、On/Off-policy、重要性采样