CS224R Lecture 10: 强化学习用于 LLM 推理

LaTeX 源码 · 观看视频

字段	内容
作者/整理	基于公开课程资料整理
来源	Stanford Online
日期	2025 年春季

引言：为什么需要 RL 来做推理

本讲由 CMU 的 Aviral Kumar 客座讲授，聚焦于强化学习（RL）在大语言模型（LLM）推理中的应用。讲者将推理限定在数学问题求解场景下进行阐述，并以时间线为轴将内容分为两大部分：经典 RL 技术和现代扩展。

核心动机

传统的 next-token prediction（NTP）训练范式存在根本性局限：学习到的模型 \(\hat{p}_\theta(\mathbf{y}|\mathbf{x})\) 与真实分布 \(p^*(\mathbf{y}|\mathbf{x})\) 的误差正比于 \(|\mathcal{D}(\mathbf{y}|\mathbf{x})|^{-\alpha}\)，即误差随与目标输入 \(\mathbf{x}\) 相似的数据量增加而减小。对于推理问题，高质量的问题--解答数据极其稀缺，预计到 2028 年互联网高质量文本数据将耗尽。

NTP 的失败模式

仅靠监督训练的模型在解决如 AIME（美国数学邀请赛）或 IMO（国际数学奥林匹克）等困难数学问题时，虽然能生成"看上去像解答"的文本，但逻辑推理链条往往存在关键错误。模型会跳过必要的推理步骤，或者在证明过程中对个别项进行分析而忽略整体结构。

传统训练方式：next-token prediction 的误差界

来源：Slides 第 3 页。

数据稀缺问题：数学推理和具身 AI 领域的数据限制

来源：Slides 第 4 页。

本章小结

NTP 在推理场景下失效的核心原因是高质量推理数据不足。RL 的价值在于不依赖人工标注的完整解答，而是通过奖励信号（如答案是否正确）引导模型自主发现正确的推理路径。

讲座大纲

讲者将 RL for Reasoning 以 DeepSeek-R1/"thinking"模型为分界点，分为两个历史阶段：

讲座大纲：经典技术 vs 现代扩展

来源：Slides 第 6 页。

Part 1 --- 经典 RL 技术：Imitation Learning、Offline RL、Online RL
Part 2 --- 现代扩展：在线 RL 训练"thinking"模型、DeepSeek-R1、Kimi K1.5 等

Part 1：经典 RL 技术用于 LLM 推理

将推理建模为 RL 问题

MDP 建模

将数学推理问题建模为 MDP：

状态 \(s_t\)：问题描述 + 到目前为止生成的解答前缀（token 序列）
动作 \(a_t\)：下一步推理步骤（可以是一个 token 或一个推理步骤/句子）
奖励 \(r\)：通常是稀疏的终端奖励，仅当完整解答生成后验证答案是否正确（outcome-based reward）
策略 \(\pi_\theta(a_t | s_t)\)：语言模型本身

数据扩增：扩展问题和解答数量

在最简单的设定下，收集更多的 (问题, 解答) 对来做监督微调（SFT）。Setlur et al. (NeurIPS 2024) 的实验表明：

在 GSM8K 上，SFT 测试误差随问题数增长的收敛速率约为 \(|\mathcal{D}|^{-0.15}\)
在 MATH 上更慢，约为 \(|\mathcal{D}|^{-0.05}\)

Warmup：扩展问题数和 Oracle 解答的 scaling 行为

来源：Slides 第 10 页。

RFT（Rejection Fine-Tuning）

RFT 是一种简单的利用 RL 信号改进 SFT 的方法：用当前模型采样多个解答，仅保留答案正确的解答用于微调。这等价于一种简化的 offline RL，因为它通过奖励信号过滤了训练数据。

为什么 RFT 继续堆数据会失效

讲者特别强调，RFT 不是 “采样更多、训练更久” 就能无限提升的策略。问题在于：这些 on-policy 正样本来自模型自己的行为分布，它们携带了当前策略已经形成的偏差。模型短期内能在训练提示上学会 “自我修补”，但这种修补往往不是对推理规律的真正掌握，而是对特定轨迹模式的记忆。

RFT scaling 的拐点：继续拟合 on-policy 正样本会伤害泛化

来源：Slides 第 11 页。

RFT 的核心风险是伪步骤被强化

如果模型在某类题目中偶然生成了能通向正确答案、但逻辑上并不稳固的中间步骤，那么 RFT 会把这些步骤也当作 “可学习样本” 一并放大。训练误差下降不代表推理更稳，只可能说明模型更会复述自己原本的习惯。

伪步骤会让模型在测试时偏离正确求解轨道

来源：Slides 第 12 页。

离线 RL：利用负样本的优势

关键洞察：不仅使用正确解答（正样本），还应利用错误解答（负样本）来提供对比信号。

Per-Step Advantage 的概念

对于错误解答中的每一步推理，可以通过从该步出发多次 rollout 来估计该步的"优势"（advantage）。如果从某个中间步出发的 rollout 总是失败，说明该步是一个"错误步骤"；如果有时成功有时失败，说明该步是"尚可的步骤"。这本质上是在估计 rollout 策略的值函数。

负样本 on-policy 数据提供的优势信号

来源：Slides 第 15 页。

离线 RL 使用这些优势估计的两种方式：

Option 1：仅使用估计的优势进行加权 SFT（对正确步骤加大权重，对错误步骤降低权重）
Option 2：使用 DPO（Direct Preference Optimization），保留来自 \(\tilde{\pi}\) 的部分 rollout 进行偏好对比训练

利用 Advantage 进行 Offline RL (DPO)

来源：Slides 第 20 页。

Advantage 到底在刻画什么

这部分是整场讲座中最值得反复消化的技术点。Aviral Kumar 把 “每一步是否值得保留” 明确转成了一个价值估计问题：固定某个中间步骤后，再从这里继续 rollout，多次观察最终成功率。如果某一步后续几乎总是失败，这一步就应当得到负 advantage；如果后续成功率明显更高，则说明它把搜索过程带向了更好的区域。

Advantage 的直觉：比较做出某一步前后的价值变化

来源：Slides 第 17 页。

从 step filtering 到偏好学习

一旦拿到了 step-level advantage，就有两种非常自然的训练用法：

直接过滤：只保留 advantage 高的步骤，形成更干净的 imitation 数据。
形成偏好对：把好步骤与坏步骤、好轨迹片段与坏轨迹片段组成 preference pair，再用 DPO 这类目标去优化。

这也是本讲一直在强调的主线：RL 的价值不只是最终 reward，更在于把稀疏结果信号变成更密的训练监督。

Advantage filtering 在实验中显著缓解伪步骤问题

来源：Slides 第 19 页。

离线 RL 的局限

Offline RL 的关键问题在于：用来估计 advantage 的 rollout 策略 \(\tilde{\pi}\) 与当前正在训练的策略 \(\pi_\theta\) 之间存在分布偏移（distribution shift）。随着训练进行，\(\pi_\theta\) 更新后 advantage 估计会变得不准确。

在线 RL：REINFORCE 和 PPO

为了解决离线 RL 的分布偏移问题，在线 RL 在训练过程中持续用当前策略采样新数据。

在线 RL 的基本流程：

用当前策略 \(\pi_\theta\) 对问题采样多个解答
用奖励模型或验证器评估这些解答
估计每步的优势（advantage）
用策略梯度方法（如 REINFORCE 或 PPO）更新策略

Per-Step Advantages in Online RL

来源：Slides 第 25 页。

一个关键问题是：是否应该在线实时做 rollout 来估计 advantage？讲者提到可以训练一个参数化的过程奖励模型（Process Reward Model, PRM）来预测每步的 advantage，从而避免昂贵的在线 rollout。

PAV：把 outcome reward 变成 dense reward

如果说 offline RL 的关键是把错误轨迹也变成有价值的监督，那么 online RL 的关键就是进一步让奖励信号变密。Setlur et al. 在 “Rewarding Progress” 中提出的 Process Advantage Verifier（PAV）正是为此服务：它学习预测某一步推理给后续成功率带来的边际提升，从而把原本只在答案正确时出现的 0/1 奖励，改写成贯穿整条解答链的 dense bonus。

PAV 用参数化优势验证器为每一步提供更细粒度的训练信号

来源：Slides 第 26 页。

为什么 dense reward 特别适合推理任务

数学与代码推理的搜索空间极大，且正确轨迹非常稀疏。仅靠最终答案 reward，相当于要求模型在几乎没有中途反馈的情况下盲目搜索；而 PAV 提供的 step-level bonus 能持续告诉模型：当前这一步是否把自己带向更可能成功的解空间。

Dense-reward online RL 带来更好的样本效率和性能

来源：Slides 第 27 页。

PAV 的探索价值：帮助模型找到原本难以触及的解法

来源：Slides 第 28 页。

本章小结

经典 RL 技术（SFT \(\to\) RFT \(\to\) Offline RL \(\to\) Online RL）形成了一个逐步强化的工具链。核心 takeaway 是：RL 训练可以显著提高 LLM 推理的数据效率，相比纯 SFT 可提升约 8 倍。

Part 2：训练"Thinking"模型

Part 2：训练"Thinking"模型的主要论文

来源：Slides 第 30 页。

DeepSeek-R1：通过 RL 激励推理能力

DeepSeek-R1 是"thinking model"范式的标志性工作。其核心发现是：仅通过 RL 训练（不需要人工标注的推理链），模型就能自发涌现出复杂的推理行为。

DeepSeek-R1 的训练流程

在基础模型上直接应用 GRPO（Group Relative Policy Optimization）进行 RL 训练
奖励仅基于最终答案是否正确（outcome reward）+ 格式奖励
模型自发学会了：验证（verification）、回溯（backtracking）、设定子目标（subgoal setting）、反向推理（backward chaining）等元策略

GRPO（Group Relative Policy Optimization）

GRPO 是 PPO 的简化变体。对于每个问题采样一组解答，用组内的相对奖励（减去组内均值后标准化）作为优势估计，避免了训练额外的 critic/value 网络。这在大规模 LLM 训练中更加高效。

从具体轨迹理解 “thinking” 是什么

“Thinking model” 这个说法很容易被说得神秘，但讲者展示的例子其实很具体：模型会在一次回答内部执行更多宏观操作，例如尝试一个方向、发现不对、显式验证、回退并重规划。也就是说，RL 并不是单纯让输出更长，而是提高了模型在固定预算内组织这些宏观动作的能力。

Thinking model 的单条轨迹示意：验证、回溯与重新规划交替出现

来源：Slides 第 31 页。

真正改变的是动作空间，而非 RL 教科书

讲者在 slides 中专门给出一句很重要的判断：训练目标并没有本质改变，真正变化的是模型已经能执行的 “macro actions”。 DeepSeek-R1 仍在做 policy gradient，Kimi K1.5 也仍然依赖 advantage 驱动的策略更新，但基础模型已经能以更长 token budget 表达验证、回溯、子目标分解等高阶行为，因此同样的 RL 配方能在新的动作空间里产生更强效果。

Thinking model 时代的变化：奖励形式近似不变，动作空间和预算显著扩大

来源：Slides 第 32 页。

为什么 “动作空间升级” 比 “目标函数升级” 更关键

很多讨论把 thinking model 的突破归因于某个新优化器或新损失，但这节课的判断更克制：只要基础模型已经具备一定的元认知雏形，扩大上下文预算、允许更长 rollout、再用 RL 奖励这些行为，就足以显著放大推理表现。换句话说，新能力往往来自已有能力的放大和重组，而不是凭空发明一种全新训练目标。

涌现的推理行为

“Action” Space：涌现的元策略对比

来源：Slides 第 35 页。

Gandhi et al. (2025) 的研究表明，能否在 RL 训练中涌现认知行为取决于基础模型是否已经具备这些行为的"种子"。DeepSeek 系列模型在 RL 训练过程中，验证和回溯行为的频率先上升后下降；而 Meta 的 Llama 模型则完全没有展现出这些行为，RL 训练也未能改善其推理能力。

RL 并非万能

RL 无法让模型学会它"完全不会"的行为。如果基础模型在预训练阶段没有接触过推理链式思考的数据，单靠 RL 很难从零涌现出复杂推理行为。基础模型的能力是 RL 发挥作用的前提。

固定预算下的训练目标

讲者随后把问题重新表述为一个很工程化的目标：在每道测试题拥有固定总 compute budget 的前提下，训练一个策略，让 sampled response 在这个预算内尽可能提高成功率。这个表述有两个现实含义：

推理不是 “越长越好”，而是要在受限预算内决定把算力花在哪里。
RL、SFT、RFT 本质上都可以被看作这个适应问题的不同求解器，它们差异主要在是否利用奖励以及利用奖励的方式有多充分。

Thinking model 训练的目标：在固定测试预算内最大化成功率

来源：Slides 第 33 页。

同一预算约束下，RL 与 SFT/RFT 都可视为 “适应问题” 的不同实现

来源：Slides 第 34 页。

Kimi K1.5：扩展 RL 训练

Kimi K1.5 的核心贡献在于如何在大规模上有效地进行 RL 训练：

更长的上下文窗口（128K tokens）
更好的采样策略和奖励设计
实验表明 RL 训练的性能随计算量增加而持续提升

长度放大与 test-time scaling 的新范式

RL 训练的另一个直接后果，是模型愿意把更多 token 预算用在真正有价值的地方。讲者引用 Kimi 的报告指出，RL 训练后模型回答长度显著增长，但这不是无意义冗长，而是伴随着更多检查、修正和分支探索。于是，“推理时多给一些计算” 开始成为一条可与 “继续增大模型参数” 并列的性能提升路线。

RL 训练会放大回答长度，并把额外长度转化为更丰富的推理行为

来源：Slides 第 36 页。

新的问题设定：除了放大模型，也可以放大 test-time compute

来源：Slides 第 37 页。

更长的思考、更强的自校正构成了新的 test-time scaling 路线

来源：Slides 第 39 页。

Thinking 模型的效果

Thinking 模型在各 benchmark 上的表现

来源：Slides 第 40 页。

Thinking 模型在 Codeforces 竞赛编程、Humanity's Last Exam、AIME 等多个基准上取得了显著提升。DeepSeek-R1 在 AIME 2024 上达到 79.8% 的 Pass@1，与 OpenAI o1-1217 的 79.2% 相当。

Test-Time Compute 与 Meta-RL

讲者最后提到，优化 test-time compute（推理时计算量分配）本质上是一个 Meta-RL 问题：模型需要学习在推理时如何"花费"计算预算。

还没有解决的问题

尽管 leaderboard 成绩已经很亮眼，这节课最后一页反而是警告意味最强的一页：当前 thinking model 仍然缺乏统一而清晰的 formulation。我们还没有彻底回答三件事：第一，是否存在比 outcome reward 更稳健的 dense reward 设计；第二，在什么条件下 RL 的收益会稳定超过 SFT；第三，如何把 “推理增强” 严格表述为一个适应问题，而不是一组经验技巧的堆叠。

课程结尾给出的开放问题：formulation、dense rewards 与 RL 对 SFT 的优势边界

来源：Slides 第 41 页。

真正的挑战不在于复刻一篇 DeepSeek-R1

如果只盯着某个公开模型或某条 benchmark 曲线，很容易把问题误解成 “找到同款 recipe”。但 Aviral Kumar 的收束方式更像研究问题清单：我们仍然需要弄清楚奖励信号的形状、搜索与验证的耦合方式、以及不同基础模型为何对 RL 的响应差异如此巨大。

本章小结

DeepSeek-R1 等 thinking model 证明了：(1) RL 可以激励 LLM 自主发展推理能力；(2) 关键前提是基础模型需具备推理行为的"种子"；(3) GRPO 等简化的策略优化方法在大规模训练中既高效又有效。

总结与延伸

本讲的核心信息是：经典 RL 的基本思想（策略梯度、advantage estimation、on/off-policy 区分）在 LLM 推理中同样适用且至关重要。

关键 takeaway：

SFT 受限于数据稀缺，纯靠扩展数据的 scaling 速率很慢
RL 通过利用负样本和 advantage 信号，将数据效率提升了约 8 倍
在线 RL（如 GRPO/PPO）通过持续采样避免了分布偏移
Thinking 模型展示了 RL 可以从简单的 outcome reward 中涌现复杂推理行为
基础模型的预训练质量是 RL 成功的前提条件

方法脉络总表

方法	使用的数据/信号	主要收益	主要风险
SFT / NTP	问题 + 参考解答	训练简单、稳定、易扩展	受高质量数据规模限制，容易学到表面模式
RFT	on-policy 正样本 + 结果筛选	能快速放大已有正确轨迹	伪步骤会被一并强化，泛化可能变差
Offline RL	错误轨迹 + advantage / preference	能利用负样本，显著提升数据效率	依赖 rollout 策略，存在分布偏移
Online RL / GRPO / PPO	当前策略采样 + outcome / dense reward	直接优化当前行为分布，适合 thinking model	成本高，对奖励设计和基础模型质量敏感

Lecture 10 中几类方法的关系与取舍

拓展阅读

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL (2025)
Kimi K1.5: Scaling Reinforcement Learning with LLMs (2025)
Setlur et al., “RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold,” NeurIPS 2024
Gandhi et al., “Cognitive Behaviors that Enable Self-Improving Reasoners,” arXiv 2025
Setlur et al., “Rewarding Progress: Scaling Automated Process Supervision for LLM Reasoning,” arXiv 2024