Reward Model 与概率统计建模

引言

本期通过 Bradley-Terry 模型重温 Reward Model，梳理概率统计建模、深度学习和最大似然估计之间的关系。

三者之间的关系

给定两个 response \(y_w\)（preferred）和 \(y_l\)（rejected），Bradley-Terry 模型定义偏好概率：

\[ P(y_w \succ y_l) = \sigma(r(y_w) - r(y_l)) \]

其中 \(r(\cdot)\) 是 Reward Model 的输出，\(\sigma\) 是 sigmoid 函数。

最大化似然 \(\Leftrightarrow\) 最小化负对数似然：

\[ \mathcal{L} = -\log \sigma(r(y_w) - r(y_l)) \]

Reward Model 的训练本质上是概率统计建模 + MLE 求解。深度学习只是优化工具。

这节课反复强调 Bradley-Terry 和 MLE，其实是在提醒研究者：Reward Model 首先是一个概率模型，其次才是一个神经网络训练任务。只把注意力放在网络结构和 loss 调参上，很容易忽略偏好数据的统计假设是否成立。

Reward Model 常见误区

掌握 Reward Model，关键是先理解偏好概率如何被建模，再决定用什么深度学习工具去拟合它。