跳转至

DPO:从 Reward Model 到直接偏好优化

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于公开课程资料整理
来源 五道口纳什
日期 2025

DPO:从 Reward Model 到直接偏好优化

引言

有了前两期关于 Reward Model 和分布视角的铺垫,本期介绍 DPO(Direct Preference Optimization)。

DPO 的核心思想

DPO 将 RLHF 的两阶段(先训 RM,再用 RM 做 RL)合并为一步直接优化,绕过了显式的 Reward Model。

从 RLHF 到 DPO

RLHF 的两阶段

  1. 搜集偏好数据 \(\to\) 训练 Reward Model
  2. 用 RM 构造代理损失 \(\to\) PPO 优化策略

DPO 的推导

DPO 的关键洞察:最优策略 \(\pi^*\) 与 reward function 之间存在闭式关系。利用这个关系,可以直接从偏好数据优化策略,无需显式 RM。

\[ \mathcal{L}_{\text{DPO}} = -\mathbb{E}\left[\log \sigma\left(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)\right] \]

本章小结

DPO 通过数学推导将两阶段 RLHF 压缩为一步,是一个优雅的简化。

方法比较:简化流程不等于没有假设

DPO 的吸引力在于它用一个更短的优化链条替代了 RLHF 的两阶段流程,但这不意味着它没有前提。它之所以成立,是因为我们接受了最优策略和 reward 之间的特定关系,并且愿意用 reference policy 与 KL 约束来保持训练稳定。

理解 DPO 时要保留的三点

  • 它省掉的是显式 RM,不是偏好建模本身
  • reference policy 仍然在目标里扮演稳定器角色
  • 偏好数据质量依旧直接决定训练上限

本章小结

DPO 的“优雅”来自推导简洁,但实验时仍然要关注数据质量、reference 选择和偏好噪声,不能把它理解成零成本替代品。

总结与延伸

  1. DPO 绕过显式 RM,直接从偏好数据优化策略
  2. 数学上等价于带 KL 约束的 RLHF
  3. 实现简单,效果与 RLHF 相当或更好