DPO：从 Reward Model 到直接偏好优化

LaTeX 源码

字段	内容
作者/整理	基于公开课程资料整理
来源	五道口纳什
日期	2025

引言

有了前两期关于 Reward Model 和分布视角的铺垫，本期介绍 DPO（Direct Preference Optimization）。

DPO 的核心思想

DPO 将 RLHF 的两阶段（先训 RM，再用 RM 做 RL）合并为一步直接优化，绕过了显式的 Reward Model。

从 RLHF 到 DPO

RLHF 的两阶段

搜集偏好数据 \(\to\) 训练 Reward Model
用 RM 构造代理损失 \(\to\) PPO 优化策略

DPO 的推导

DPO 的关键洞察：最优策略 \(\pi^*\) 与 reward function 之间存在闭式关系。利用这个关系，可以直接从偏好数据优化策略，无需显式 RM。

\[ \mathcal{L}_{\text{DPO}} = -\mathbb{E}\left[\log \sigma\left(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)\right] \]

本章小结

DPO 通过数学推导将两阶段 RLHF 压缩为一步，是一个优雅的简化。

方法比较：简化流程不等于没有假设

DPO 的吸引力在于它用一个更短的优化链条替代了 RLHF 的两阶段流程，但这不意味着它没有前提。它之所以成立，是因为我们接受了最优策略和 reward 之间的特定关系，并且愿意用 reference policy 与 KL 约束来保持训练稳定。

理解 DPO 时要保留的三点

它省掉的是显式 RM，不是偏好建模本身
reference policy 仍然在目标里扮演稳定器角色
偏好数据质量依旧直接决定训练上限

本章小结

DPO 的“优雅”来自推导简洁，但实验时仍然要关注数据质量、reference 选择和偏好噪声，不能把它理解成零成本替代品。

总结与延伸

DPO 绕过显式 RM，直接从偏好数据优化策略
数学上等价于带 KL 约束的 RLHF
实现简单，效果与 RLHF 相当或更好