PG Loss 详解:Policy Gradient 的核心组件
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | 五道口纳什 |
| 日期 | 2025 |

引言
本期正式开启 Agentic RL Training 系列,围绕 veRL 框架展开。本期介绍 Policy Gradient Loss 的核心组件。
强化学习的真正目标
RL 的目标是最大化奖励回报的期望(Expected Reward)。PPO Clip 等目标函数只是一个代理(surrogate),间接优化这个期望。训练时更应关注 Rewards Curve 而非 Loss Curve。
Policy Gradient 基础
期望奖励不可直接求导
真正的目标函数 \(J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta}[R(\tau)]\) 涉及对策略分布的采样,无法直接对 \(\theta\) 求导。因此我们使用 PG Loss 作为代理损失函数。
PPO Clip 目标
PPO Clip 是当前最常用的 PG 方法:
其中 \(r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}\) 是重要性采样比率,\(\hat{A}_t\) 是优势函数估计。
Loss vs. Rewards
训练过程中 PG Loss 往往围绕 0 上下震荡,没有明显的下降趋势。这是正常的——因为 PG Loss 是代理目标,真正的训练信号体现在 Rewards Curve 上。
本章小结
PG Loss 是间接优化期望奖励的工具。训练时应以 Rewards Curve 为主要监控指标。
定制化 veRL
主要定制点
基于 veRL 做 Agentic RL Post-training 时,主要定制几个部分:
- Reward Function:定义任务的奖励函数
- Environment:定义 Agent 交互的环境
- Data Pipeline:准备训练数据
- Training Config:调整超参数
本章小结
veRL 提供了灵活的定制接口,核心工作在于定义合适的 reward function 和 environment。
训练监控与排障要点
从奖励曲线反推系统问题
在真正运行 Agentic RL 任务时,研究者往往不会先看到“算法错了”,而是先看到 reward curve 长时间不抬升、方差异常大或者 rollout 质量忽高忽低。把这些现象拆解开,通常能更快定位到问题究竟来自 reward、环境还是采样配置。
| 观测现象 | 常见原因 | 首先检查什么 |
|---|---|---|
| reward 长期不涨 | reward 定义太稀疏或 credit assignment 太弱 | 是否需要 shaping 或更细粒度反馈 |
| loss 波动很大 | batch 太小或 advantage 方差过高 | rollout 长度、归一化与 clip 配置 |
| 策略突然崩掉 | environment 不稳定或更新过猛 | 采样日志、异常 episode、KL 漂移 |
为什么短视频也要强调监控
即便这一讲只介绍 PG loss 的核心组件,真正把它用到 veRL 时,工程反馈仍然是第一位的。原因很简单:策略梯度类方法对采样分布十分敏感,很多问题只有在 reward、KL、episode length、成功率同时观察时才看得出来。
本章小结
PG loss 的理论理解必须和训练监控结合起来:只有把 reward、rollout 质量和策略漂移一起看,才能判断当前更新到底是在学习,还是只是在噪声里震荡。
总结与延伸
- RL 真正的目标是最大化期望奖励,PG Loss 只是代理
- 训练时关注 Rewards Curve 而非 Loss Curve
- PPO Clip 通过重要性采样比率和 clip 机制保证稳定训练
- veRL 框架提供了 Agentic RL Training 的完整 pipeline
拓展阅读
- Schulman et al., “Proximal Policy Optimization Algorithms” (2017)
- veRL GitHub 仓库及文档