Advantage Estimator：GRPO、RLOO、REINFORCE++

引言

本期介绍 veRL 中各种强化学习算法的 Advantage Estimator 实现。核心代码：trainer/ppo/core_algorithms.py。

两种粒度

Batch 是训练的 mini-batch，Group 是 GRPO 中对同一 prompt 的多个 response 分组。

Token-level 的 advantage 估计，需要 value model。

Sequence-level，组内标准化，不需要 value model。

不同的 baseline 减法策略，减小方差。

不同 Advantage Estimator 在粒度、是否需要 value model、方差控制上各有取舍。

GAE、GRPO、RLOO 看起来只是公式不同，但它们真正的差别在于训练信号的粒度、方差控制方式以及对额外模块的依赖。理解这些差别，比背诵缩写本身更重要。

选择 Advantage Estimator 时看三件事

优势估计方法的选择，本质上是在粒度、复杂度和方差之间做权衡。理解这个权衡，比盲目追新算法更有用。