GRPO 下的 PG Loss 分析
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | 五道口纳什 |
| 日期 | 2025 |

引言
本期分析 Policy Gradient Loss 在 GRPO setting 下的特性,解释为什么 PG Loss 围绕 0 震荡。
PG Loss 的震荡特性
PG Loss 围绕 0 上下震荡是正常现象。RL 的真正 objective 是最大化期望奖励,PG Loss 只是代理损失。Rewards Curve 持续上升并最终收敛才是训练成功的标志。
GRPO 中的 PG Loss
Group Relative Policy Optimization
GRPO 对同一 prompt 采样一组 response,计算组内的相对优势。这消除了对 value model 的依赖。
Loss 围绕 0 震荡的原因
PG Loss \(= \mathbb{E}[r_t \cdot A_t]\)。因为 Advantage \(A_t\) 有正有负(好的动作 \(A > 0\),差的 \(A < 0\)),期望值在 0 附近。随着策略改进,正负 advantage 的分布动态变化,导致 loss 持续震荡。
本章小结
PG Loss 的震荡是其数学本质决定的,不代表训练失败。关键指标是 Rewards Curve。
REINFORCE 在 CartPole 上的验证
本期最后用 REINFORCE 算法在 CartPole 环境上验证了上述分析:PG Loss 围绕 0 震荡,而 rewards 稳步提升。
训练判断:先看 reward,再看代理损失
短讲里最容易被误解的一点,是把 PG loss 的波动当成训练失败。更合理的做法是把 reward、成功率和采样质量放在一起看:如果 reward 在升、采样轨迹越来越稳定,那么 loss 在 0 附近震荡并不是坏事,反而说明优势估计仍在持续推动策略分化。
最小监控面板
- Reward curve:判断策略是否真的变强
- Episode 长度/成功率:判断环境里是否学到了可复用行为
- PG loss:只作为辅助信号,不单独解释
本章小结
GRPO 或 REINFORCE 这类方法都提醒我们:代理损失的数值形态不等于训练成败。真正应该被优先解释的是 reward 和 rollout 质量是否持续改善。
总结与延伸
- PG Loss 围绕 0 震荡是正常现象
- GRPO 通过组内相对优势消除 value model 依赖
- 训练监控应以 Rewards Curve 为主