从概率分布视角重新审视 SFT 与 RL
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | 五道口纳什 |
| 日期 | 2025 |

引言
本期从概率分布的视角重新审视语言模型的 SFT 和 RL 训练过程。
分布视角
无论是 SFT 还是 RL,都是将 Base Model 的分布 \(\pi_{\text{ref}}\) 训练到一个新的目标分布:
- SFT:模仿人类数据分布的``平均形态(监督学习)
- RL:搜索奖励最高的分布(强化学习)
两者意味着不同的优化过程和不同的目标分布。
SFT 的分布含义
SFT 通过 Prompt-Response 数据对模型做监督学习。目标是让模型输出分布尽可能接近训练数据的分布。
RL 的分布含义
RL 中 Response 是模型 online rollout 出来的(不是固定数据)。目标是最大化期望奖励,最终分布不一定等于人类分布。
本章小结
SFT 追求像人类,RL 追求奖励最高。两者的目标分布本质不同。
实践含义:分布差异会怎样影响训练
一旦从分布角度理解 SFT 和 RL,就更容易看清两者为什么会训练出不同风格的模型。SFT 更像是在逼近已有数据的经验分布,而 RL 会主动把概率质量推向高奖励区域,因此两者在多样性、稳定性与可控性上的取舍也不相同。
做实验时该先问什么
- 当前任务更需要贴近人类分布,还是更需要极致奖励
- rollout 是否足够在线,能否支撑 RL 的分布移动
- 是否需要先用 SFT 打底,再用 RL 做局部强化
本章小结
分布视角的最大价值,在于它能帮助研究者判断何时该模仿、何时该搜索奖励,以及两者应该怎样组合。
总结与延伸
- 分布视角是理解 SFT vs. RL 的统一框架
- SFT = 监督模仿;RL = 奖励最大化
- 为理解 DPO 做铺垫