GRPO 下的 PG Loss 分析

GRPO 下的 PG Loss 分析

引言

本期分析 Policy Gradient Loss 在 GRPO setting 下的特性，解释为什么 PG Loss 围绕 0 震荡。

PG Loss 的震荡特性

PG Loss 围绕 0 上下震荡是正常现象。RL 的真正 objective 是最大化期望奖励，PG Loss 只是代理损失。Rewards Curve 持续上升并最终收敛才是训练成功的标志。

GRPO 对同一 prompt 采样一组 response，计算组内的相对优势。这消除了对 value model 的依赖。

PG Loss \(= \mathbb{E}[r_t \cdot A_t]\)。因为 Advantage \(A_t\) 有正有负（好的动作 \(A > 0\)，差的 \(A < 0\)），期望值在 0 附近。随着策略改进，正负 advantage 的分布动态变化，导致 loss 持续震荡。

PG Loss 的震荡是其数学本质决定的，不代表训练失败。关键指标是 Rewards Curve。

本期最后用 REINFORCE 算法在 CartPole 环境上验证了上述分析：PG Loss 围绕 0 震荡，而 rewards 稳步提升。

短讲里最容易被误解的一点，是把 PG loss 的波动当成训练失败。更合理的做法是把 reward、成功率和采样质量放在一起看：如果 reward 在升、采样轨迹越来越稳定，那么 loss 在 0 附近震荡并不是坏事，反而说明优势估计仍在持续推动策略分化。

最小监控面板

GRPO 或 REINFORCE 这类方法都提醒我们：代理损失的数值形态不等于训练成败。真正应该被优先解释的是 reward 和 rollout 质量是否持续改善。