跳转至

Advantage Estimator:GRPO、RLOO、REINFORCE++

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于公开课程资料整理
来源 五道口纳什
日期 2025

Advantage Estimator:GRPO、RLOO、REINFORCE++

引言

本期介绍 veRL 中各种强化学习算法的 Advantage Estimator 实现。核心代码:trainer/ppo/core_algorithms.py

关键概念

Token Level vs. Sequence Level

两种粒度

  • Token Level:每个 token 有独立的 advantage 值(如 GAE)
  • Sequence Level:整个序列共享一个 advantage 值(如 GRPO)

Batch vs. Group

Batch 是训练的 mini-batch,Group 是 GRPO 中对同一 prompt 的多个 response 分组。

各算法详解

GAE (Generalized Advantage Estimation)

Token-level 的 advantage 估计,需要 value model。

GRPO Advantage

Sequence-level,组内标准化,不需要 value model。

REINFORCE / REINFORCE++ / RLOO

不同的 baseline 减法策略,减小方差。

本章小结

不同 Advantage Estimator 在粒度、是否需要 value model、方差控制上各有取舍。

方法选择:优势估计没有银弹

GAE、GRPO、RLOO 看起来只是公式不同,但它们真正的差别在于训练信号的粒度、方差控制方式以及对额外模块的依赖。理解这些差别,比背诵缩写本身更重要。

选择 Advantage Estimator 时看三件事

  • 需要 token-level 还是 sequence-level 信号
  • 是否愿意引入 value model 提高复杂度
  • 当前任务更怕方差大,还是更怕估计偏差

本章小结

优势估计方法的选择,本质上是在粒度、复杂度和方差之间做权衡。理解这个权衡,比盲目追新算法更有用。

总结与延伸

  1. GAE 需要 value model,GRPO 不需要
  2. GRPO 通过组内标准化实现 advantage 估计
  3. RLOO 使用 leave-one-out 作为 baseline