从概率分布视角重新审视 SFT 与 RL

引言

本期从概率分布的视角重新审视语言模型的 SFT 和 RL 训练过程。

分布视角

无论是 SFT 还是 RL，都是将 Base Model 的分布 \(\pi_{\text{ref}}\) 训练到一个新的目标分布：

两者意味着不同的优化过程和不同的目标分布。

SFT 通过 Prompt-Response 数据对模型做监督学习。目标是让模型输出分布尽可能接近训练数据的分布。

RL 中 Response 是模型 online rollout 出来的（不是固定数据）。目标是最大化期望奖励，最终分布不一定等于人类分布。

SFT 追求像人类，RL 追求奖励最高。两者的目标分布本质不同。

一旦从分布角度理解 SFT 和 RL，就更容易看清两者为什么会训练出不同风格的模型。SFT 更像是在逼近已有数据的经验分布，而 RL 会主动把概率质量推向高奖励区域，因此两者在多样性、稳定性与可控性上的取舍也不相同。

做实验时该先问什么

分布视角的最大价值，在于它能帮助研究者判断何时该模仿、何时该搜索奖励，以及两者应该怎样组合。