跳转至

GRPO 下的 PG Loss 分析

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于公开课程资料整理
来源 五道口纳什
日期 2025

GRPO 下的 PG Loss 分析

引言

本期分析 Policy Gradient Loss 在 GRPO setting 下的特性,解释为什么 PG Loss 围绕 0 震荡。

PG Loss 的震荡特性

PG Loss 围绕 0 上下震荡是正常现象。RL 的真正 objective 是最大化期望奖励,PG Loss 只是代理损失。Rewards Curve 持续上升并最终收敛才是训练成功的标志。

GRPO 中的 PG Loss

Group Relative Policy Optimization

GRPO 对同一 prompt 采样一组 response,计算组内的相对优势。这消除了对 value model 的依赖。

Loss 围绕 0 震荡的原因

PG Loss \(= \mathbb{E}[r_t \cdot A_t]\)。因为 Advantage \(A_t\) 有正有负(好的动作 \(A > 0\),差的 \(A < 0\)),期望值在 0 附近。随着策略改进,正负 advantage 的分布动态变化,导致 loss 持续震荡。

本章小结

PG Loss 的震荡是其数学本质决定的,不代表训练失败。关键指标是 Rewards Curve。

REINFORCE 在 CartPole 上的验证

本期最后用 REINFORCE 算法在 CartPole 环境上验证了上述分析:PG Loss 围绕 0 震荡,而 rewards 稳步提升。

训练判断:先看 reward,再看代理损失

短讲里最容易被误解的一点,是把 PG loss 的波动当成训练失败。更合理的做法是把 reward、成功率和采样质量放在一起看:如果 reward 在升、采样轨迹越来越稳定,那么 loss 在 0 附近震荡并不是坏事,反而说明优势估计仍在持续推动策略分化。

最小监控面板

  • Reward curve:判断策略是否真的变强
  • Episode 长度/成功率:判断环境里是否学到了可复用行为
  • PG loss:只作为辅助信号,不单独解释

本章小结

GRPO 或 REINFORCE 这类方法都提醒我们:代理损失的数值形态不等于训练成败。真正应该被优先解释的是 reward 和 rollout 质量是否持续改善。

总结与延伸

  1. PG Loss 围绕 0 震荡是正常现象
  2. GRPO 通过组内相对优势消除 value model 依赖
  3. 训练监控应以 Rewards Curve 为主