跳转至

从概率分布视角重新审视 SFT 与 RL

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于公开课程资料整理
来源 五道口纳什
日期 2025

从概率分布视角重新审视 SFT 与 RL

引言

本期从概率分布的视角重新审视语言模型的 SFT 和 RL 训练过程。

分布视角

无论是 SFT 还是 RL,都是将 Base Model 的分布 \(\pi_{\text{ref}}\) 训练到一个新的目标分布:

  • SFT:模仿人类数据分布的``平均形态(监督学习)
  • RL:搜索奖励最高的分布(强化学习)

两者意味着不同的优化过程和不同的目标分布。

SFT 的分布含义

SFT 通过 Prompt-Response 数据对模型做监督学习。目标是让模型输出分布尽可能接近训练数据的分布。

RL 的分布含义

RL 中 Response 是模型 online rollout 出来的(不是固定数据)。目标是最大化期望奖励,最终分布不一定等于人类分布。

本章小结

SFT 追求像人类,RL 追求奖励最高。两者的目标分布本质不同。

实践含义:分布差异会怎样影响训练

一旦从分布角度理解 SFT 和 RL,就更容易看清两者为什么会训练出不同风格的模型。SFT 更像是在逼近已有数据的经验分布,而 RL 会主动把概率质量推向高奖励区域,因此两者在多样性、稳定性与可控性上的取舍也不相同。

做实验时该先问什么

  • 当前任务更需要贴近人类分布,还是更需要极致奖励
  • rollout 是否足够在线,能否支撑 RL 的分布移动
  • 是否需要先用 SFT 打底,再用 RL 做局部强化

本章小结

分布视角的最大价值,在于它能帮助研究者判断何时该模仿、何时该搜索奖励,以及两者应该怎样组合。

总结与延伸

  1. 分布视角是理解 SFT vs. RL 的统一框架
  2. SFT = 监督模仿;RL = 奖励最大化
  3. 为理解 DPO 做铺垫