PG Loss 详解：Policy Gradient 的核心组件

LaTeX 源码

字段	内容
作者/整理	基于公开课程资料整理
来源	五道口纳什
日期	2025

引言

本期正式开启 Agentic RL Training 系列，围绕 veRL 框架展开。本期介绍 Policy Gradient Loss 的核心组件。

强化学习的真正目标

RL 的目标是最大化奖励回报的期望（Expected Reward）。PPO Clip 等目标函数只是一个代理（surrogate），间接优化这个期望。训练时更应关注 Rewards Curve 而非 Loss Curve。

Policy Gradient 基础

期望奖励不可直接求导

真正的目标函数 \(J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta}[R(\tau)]\) 涉及对策略分布的采样，无法直接对 \(\theta\) 求导。因此我们使用 PG Loss 作为代理损失函数。

PPO Clip 目标

PPO Clip 是当前最常用的 PG 方法：

\[ L^{\text{CLIP}}(\theta) = \mathbb{E}\left[\min\left(r_t(\theta) \hat{A}_t, \; \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t\right)\right] \]

其中 \(r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}\) 是重要性采样比率，\(\hat{A}_t\) 是优势函数估计。

Loss vs. Rewards

训练过程中 PG Loss 往往围绕 0 上下震荡，没有明显的下降趋势。这是正常的——因为 PG Loss 是代理目标，真正的训练信号体现在 Rewards Curve 上。

本章小结

PG Loss 是间接优化期望奖励的工具。训练时应以 Rewards Curve 为主要监控指标。

定制化 veRL

主要定制点

基于 veRL 做 Agentic RL Post-training 时，主要定制几个部分：

Reward Function：定义任务的奖励函数
Environment：定义 Agent 交互的环境
Data Pipeline：准备训练数据
Training Config：调整超参数

本章小结

veRL 提供了灵活的定制接口，核心工作在于定义合适的 reward function 和 environment。

训练监控与排障要点

从奖励曲线反推系统问题

在真正运行 Agentic RL 任务时，研究者往往不会先看到“算法错了”，而是先看到 reward curve 长时间不抬升、方差异常大或者 rollout 质量忽高忽低。把这些现象拆解开，通常能更快定位到问题究竟来自 reward、环境还是采样配置。

观测现象	常见原因	首先检查什么
reward 长期不涨	reward 定义太稀疏或 credit assignment 太弱	是否需要 shaping 或更细粒度反馈
loss 波动很大	batch 太小或 advantage 方差过高	rollout 长度、归一化与 clip 配置
策略突然崩掉	environment 不稳定或更新过猛	采样日志、异常 episode、KL 漂移

Agentic RL 训练里最常见的三类异常信号

为什么短视频也要强调监控

即便这一讲只介绍 PG loss 的核心组件，真正把它用到 veRL 时，工程反馈仍然是第一位的。原因很简单：策略梯度类方法对采样分布十分敏感，很多问题只有在 reward、KL、episode length、成功率同时观察时才看得出来。

本章小结

PG loss 的理论理解必须和训练监控结合起来：只有把 reward、rollout 质量和策略漂移一起看，才能判断当前更新到底是在学习，还是只是在噪声里震荡。

总结与延伸

RL 真正的目标是最大化期望奖励，PG Loss 只是代理
训练时关注 Rewards Curve 而非 Loss Curve
PPO Clip 通过重要性采样比率和 clip 机制保证稳定训练
veRL 框架提供了 Agentic RL Training 的完整 pipeline

拓展阅读

Schulman et al., “Proximal Policy Optimization Algorithms” (2017)
veRL GitHub 仓库及文档