Advantage Estimator:GRPO、RLOO、REINFORCE++
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | 五道口纳什 |
| 日期 | 2025 |

引言
本期介绍 veRL 中各种强化学习算法的 Advantage Estimator 实现。核心代码:trainer/ppo/core_algorithms.py。
关键概念
Token Level vs. Sequence Level
两种粒度
- Token Level:每个 token 有独立的 advantage 值(如 GAE)
- Sequence Level:整个序列共享一个 advantage 值(如 GRPO)
Batch vs. Group
Batch 是训练的 mini-batch,Group 是 GRPO 中对同一 prompt 的多个 response 分组。
各算法详解
GAE (Generalized Advantage Estimation)
Token-level 的 advantage 估计,需要 value model。
GRPO Advantage
Sequence-level,组内标准化,不需要 value model。
REINFORCE / REINFORCE++ / RLOO
不同的 baseline 减法策略,减小方差。
本章小结
不同 Advantage Estimator 在粒度、是否需要 value model、方差控制上各有取舍。
方法选择:优势估计没有银弹
GAE、GRPO、RLOO 看起来只是公式不同,但它们真正的差别在于训练信号的粒度、方差控制方式以及对额外模块的依赖。理解这些差别,比背诵缩写本身更重要。
选择 Advantage Estimator 时看三件事
- 需要 token-level 还是 sequence-level 信号
- 是否愿意引入 value model 提高复杂度
- 当前任务更怕方差大,还是更怕估计偏差
本章小结
优势估计方法的选择,本质上是在粒度、复杂度和方差之间做权衡。理解这个权衡,比盲目追新算法更有用。
总结与延伸
- GAE 需要 value model,GRPO 不需要
- GRPO 通过组内标准化实现 advantage 估计
- RLOO 使用 leave-one-out 作为 baseline