Agentic RL RL for LLM (PPO→GRPO→DPO, veRL) 共 20 份讲义。 讲义 日期 来源 资源 PG Loss 详解:Policy Gradient 的核心组件 2025 五道口纳什 阅读 · LaTeX · 备用 PDF 从 PG 到 TRPO 到 PPO 2025 五道口纳什 阅读 · LaTeX · 备用 PDF GRPO 下的 PG Loss 分析 2025 五道口纳什 阅读 · LaTeX · 备用 PDF REINFORCE 算法在语言模型中的应用 2025 五道口纳什 阅读 · LaTeX · 备用 PDF vLLM 推理与部署:参数调优与显存分析 2025 五道口纳什 阅读 · LaTeX · 备用 PDF DeepSeek Math V2:自我验证与推理训练 2025 五道口纳什 阅读 · LaTeX · 备用 PDF RL 是否激发了 Base Model 不具备的能力? 2025 五道口纳什 阅读 · LaTeX · 备用 PDF veRL 实战:Multi-turn SFT 训练 2025 五道口纳什 阅读 · LaTeX · 备用 PDF Reward Model 与概率统计建模 2025 五道口纳什 阅读 · LaTeX · 备用 PDF 从概率分布视角重新审视 SFT 与 RL 2025 五道口纳什 阅读 · LaTeX · 备用 PDF DPO:从 Reward Model 到直接偏好优化 2025 五道口纳什 阅读 · LaTeX · 备用 PDF veRL Agentic Loop 实践 2025 五道口纳什 阅读 · LaTeX · 备用 PDF veRL Agentic Loop 代码详解 2025 五道口纳什 阅读 · LaTeX · 备用 PDF veRL Agentic Loop 计算细节:异步与状态管理 2025 五道口纳什 阅读 · LaTeX · 备用 PDF 基于 Docker 的 veRL 环境安装与开发 2025 五道口纳什 阅读 · LaTeX · 备用 PDF veRL 训练参数详解 2025 五道口纳什 阅读 · LaTeX · 备用 PDF Advantage Estimator:GRPO、RLOO、REINFORCE++ 2025 五道口纳什 阅读 · LaTeX · 备用 PDF veRL FSDP SFT Trainer 详解 2025 五道口纳什 阅读 · LaTeX · 备用 PDF SFT 训练细节补充:无需 Decoding 的监督学习 2025 五道口纳什 阅读 · LaTeX · 备用 PDF Tokenizer 编解码不可逆与训练崩溃 2025 五道口纳什 阅读 · LaTeX · 备用 PDF