Reward Model 与概率统计建模
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | 五道口纳什 |
| 日期 | 2025 |

引言
本期通过 Bradley-Terry 模型重温 Reward Model,梳理概率统计建模、深度学习和最大似然估计之间的关系。
三者之间的关系
- 概率统计建模:定义数据的生成过程(如 Bradley-Terry 偏好模型)
- 最大似然估计 (MLE):基于统计模型定义 loss function
- 深度学习:作为求解工具,通过梯度下降优化 loss
Bradley-Terry 偏好模型
给定两个 response \(y_w\)(preferred)和 \(y_l\)(rejected),Bradley-Terry 模型定义偏好概率:
\[
P(y_w \succ y_l) = \sigma(r(y_w) - r(y_l))
\]
其中 \(r(\cdot)\) 是 Reward Model 的输出,\(\sigma\) 是 sigmoid 函数。
从 MLE 到 Loss
最大化似然 \(\Leftrightarrow\) 最小化负对数似然:
\[
\mathcal{L} = -\log \sigma(r(y_w) - r(y_l))
\]
本章小结
Reward Model 的训练本质上是概率统计建模 + MLE 求解。深度学习只是优化工具。
建模提醒:不要只盯着神经网络外壳
这节课反复强调 Bradley-Terry 和 MLE,其实是在提醒研究者:Reward Model 首先是一个概率模型,其次才是一个神经网络训练任务。只把注意力放在网络结构和 loss 调参上,很容易忽略偏好数据的统计假设是否成立。
Reward Model 常见误区
- 把偏好建模完全当成黑盒分类问题
- 不检查数据是否真的满足成对偏好假设
- 只看训练 loss,不分析 reward 分布是否稳定
本章小结
掌握 Reward Model,关键是先理解偏好概率如何被建模,再决定用什么深度学习工具去拟合它。
总结与延伸
- 掌握概率统计建模是做好 RL 研究的基础
- Bradley-Terry 是 Reward Model 的标准建模方法
- 深度学习是求解工具,概率模型才是核心