Agentic RL

RL for LLM (PPO→GRPO→DPO, veRL)

共 20 份讲义。

讲义	日期	来源	资源
PG Loss 详解：Policy Gradient 的核心组件	2025	五道口纳什	阅读 · LaTeX
从 PG 到 TRPO 到 PPO	2025	五道口纳什	阅读 · LaTeX
GRPO 下的 PG Loss 分析	2025	五道口纳什	阅读 · LaTeX
REINFORCE 算法在语言模型中的应用	2025	五道口纳什	阅读 · LaTeX
vLLM 推理与部署：参数调优与显存分析	2025	五道口纳什	阅读 · LaTeX
DeepSeek Math V2：自我验证与推理训练	2025	五道口纳什	阅读 · LaTeX
RL 是否激发了 Base Model 不具备的能力？	2025	五道口纳什	阅读 · LaTeX
veRL 实战：Multi-turn SFT 训练	2025	五道口纳什	阅读 · LaTeX
Reward Model 与概率统计建模	2025	五道口纳什	阅读 · LaTeX
从概率分布视角重新审视 SFT 与 RL	2025	五道口纳什	阅读 · LaTeX
DPO：从 Reward Model 到直接偏好优化	2025	五道口纳什	阅读 · LaTeX
veRL Agentic Loop 实践	2025	五道口纳什	阅读 · LaTeX
veRL Agentic Loop 代码详解	2025	五道口纳什	阅读 · LaTeX
veRL Agentic Loop 计算细节：异步与状态管理	2025	五道口纳什	阅读 · LaTeX
基于 Docker 的 veRL 环境安装与开发	2025	五道口纳什	阅读 · LaTeX
veRL 训练参数详解	2025	五道口纳什	阅读 · LaTeX
Advantage Estimator：GRPO、RLOO、REINFORCE++	2025	五道口纳什	阅读 · LaTeX
veRL FSDP SFT Trainer 详解	2025	五道口纳什	阅读 · LaTeX
SFT 训练细节补充：无需 Decoding 的监督学习	2025	五道口纳什	阅读 · LaTeX
Tokenizer 编解码不可逆与训练崩溃	2025	五道口纳什	阅读 · LaTeX