跳转至

Reward Model 与概率统计建模

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于公开课程资料整理
来源 五道口纳什
日期 2025

Reward Model 与概率统计建模

引言

本期通过 Bradley-Terry 模型重温 Reward Model,梳理概率统计建模、深度学习和最大似然估计之间的关系。

三者之间的关系

  1. 概率统计建模:定义数据的生成过程(如 Bradley-Terry 偏好模型)
  2. 最大似然估计 (MLE):基于统计模型定义 loss function
  3. 深度学习:作为求解工具,通过梯度下降优化 loss

Bradley-Terry 偏好模型

给定两个 response \(y_w\)(preferred)和 \(y_l\)(rejected),Bradley-Terry 模型定义偏好概率:

\[ P(y_w \succ y_l) = \sigma(r(y_w) - r(y_l)) \]

其中 \(r(\cdot)\) 是 Reward Model 的输出,\(\sigma\) 是 sigmoid 函数。

从 MLE 到 Loss

最大化似然 \(\Leftrightarrow\) 最小化负对数似然:

\[ \mathcal{L} = -\log \sigma(r(y_w) - r(y_l)) \]

本章小结

Reward Model 的训练本质上是概率统计建模 + MLE 求解。深度学习只是优化工具。

建模提醒:不要只盯着神经网络外壳

这节课反复强调 Bradley-Terry 和 MLE,其实是在提醒研究者:Reward Model 首先是一个概率模型,其次才是一个神经网络训练任务。只把注意力放在网络结构和 loss 调参上,很容易忽略偏好数据的统计假设是否成立。

Reward Model 常见误区

  • 把偏好建模完全当成黑盒分类问题
  • 不检查数据是否真的满足成对偏好假设
  • 只看训练 loss,不分析 reward 分布是否稳定

本章小结

掌握 Reward Model,关键是先理解偏好概率如何被建模,再决定用什么深度学习工具去拟合它。

总结与延伸

  1. 掌握概率统计建模是做好 RL 研究的基础
  2. Bradley-Terry 是 Reward Model 的标准建模方法
  3. 深度学习是求解工具,概率模型才是核心