跳转至

[CS25] Recipe for Training Helpful Chatbots — Nazneen Rajani, HuggingFace

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于公开课程资料整理
来源 Stanford CS25: Transformers United
日期 Fall 2023

[CS25] Recipe for Training Helpful Chatbots — Nazneen Rajani, HuggingFace

引言:H4 项目背景

Nazneen Rajani 是 HuggingFace 的研究科学家,曾领导 H4 团队。H4 代表 Helpful、Harmless、Honest 和 Huggy——目标是在开源预训练模型之上复现 ChatGPT 的对齐“秘方”。

对齐三步曲

OpenAI 在 InstructGPT 论文中提出的经典三步流程:

  1. 监督微调(SFT):在高质量指令-响应对上微调预训练模型
  2. 奖励建模(RM):训练奖励模型学习人类偏好
  3. 强化学习(RLHF):用 PPO 算法根据奖励模型优化策略

监督微调(SFT)

数据选择

SFT 阶段的核心问题是“用什么数据”。H4 团队系统评估了多个开源指令数据集:

  • Open Assistant:社区众包的多轮对话数据
  • Databricks Dolly:员工编写的指令-响应对
  • Self-Instruct / Alpaca:模型生成的合成指令数据

数据质量 \(>\) 数据数量

实验表明,1 万条高质量人工标注数据的效果可以超过 10 万条低质量合成数据。质量体现在:指令多样性、响应准确性、格式一致性。

SFT 训练细节

使用 LLaMA 系列模型作为基座,关键超参数包括:学习率 2e-5、batch size 64、1--3 epoch(避免过拟合)。

本章小结

SFT 是对齐的基础,数据质量是决定性因素。

奖励建模

偏好数据收集

奖励模型的训练需要人类偏好数据:给定同一 prompt,由多个模型生成响应,人类标注员选择更好的那个。

Bradley-Terry 模型

奖励模型通过 Bradley-Terry 模型将偏好排序转化为标量奖励:

\[ P(y_w \succ y_l | x) = \sigma(r(x, y_w) - r(x, y_l)) \]

其中 \(r(x, y)\) 是奖励模型对 prompt \(x\) 和响应 \(y\) 的打分,\(\sigma\) 为 sigmoid 函数。

数据规模

奖励模型需要大量数据

SFT 可能只需 1 万条数据,但奖励模型通常需要 10 万条以上的偏好对比数据。这是因为 RLHF 的采样效率较低——奖励模型需要在足够多样的响应对上学习细粒度的偏好信号。

本章小结

奖励建模将主观的“好坏”判断量化为可优化的标量信号。

RLHF:强化学习微调

PPO 训练流程

  1. 从 SFT 模型采样响应
  2. 用奖励模型打分
  3. 用 PPO 算法更新策略模型
  4. 加入 KL 散度惩罚,防止策略偏离 SFT 模型太远
\[ \mathcal{L}_{\text{RLHF}} = \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_\theta}\big{[}r(x, y) - \beta \cdot D_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}})\big{]} \]

其中 \(\beta\) 控制 KL 惩罚强度,\(\pi_{\text{ref}}\) 是 SFT 参考模型。

DPO:直接偏好优化

DPO 简化了 RLHF

直接偏好优化(DPO)将 RLHF 的两步(训练奖励模型 + PPO 优化)合并为一步:直接在偏好数据上优化策略模型,无需显式的奖励模型。DPO 的训练稳定性更好,超参数更少。

本章小结

RLHF 是对齐流程的核心环节,DPO 等方法正在简化这一过程。

蒸馏与合成数据

知识蒸馏

用更强的模型(如 GPT-4)生成响应,再用这些数据训练较小的模型。这种“蒸馏”方法在 Alpaca、Vicuna 等项目中被广泛使用。

蒸馏的局限性

蒸馏模型往往在风格上模仿教师模型(如生成流畅的长回答),但在事实准确性上可能没有真正提升。Chatbot Arena 等评估表明,蒸馏模型的用户偏好得分可能被“风格分”抬高。

本章小结

蒸馏是快速获取对齐能力的捷径,但不能替代真正的知识获取。

评估方法

自动评估

  • MT-Bench:多轮对话基准,GPT-4 作为裁判
  • AlpacaEval:GPT-4/Claude 进行成对比较,报告胜率
  • Chatbot Arena:公开众包的 ELO 排行榜(LMSYS)

用 LLM 评估 LLM 的偏差

GPT-4 作为评估器存在系统性偏差:偏好更长、更详细的回答,即使这些回答可能包含不准确的信息。人类评估与 GPT-4 评估的相关性约为 80%,仍有显著差距。

人类评估

H4 团队与 Scale AI 合作进行人类评估:生成所有模型组合的响应对(\(\binom{n}{2}\)),由人类标注员逐一比较,计算 ELO 评分。

本章小结

评估仍是对齐研究的最大瓶颈,自动指标和人类判断之间存在 gap。

总结与延伸

本讲系统介绍了开源社区复现 ChatGPT 对齐流程的实践经验。核心教训:(1) SFT 数据质量比数量重要;(2) RLHF 需要大量偏好数据且训练不稳定;(3) 评估仍是最大挑战。DPO 等新方法正在简化流程,但根本问题——“什么是好的回答”——仍需更深入的研究。

拓展阅读

  • Ouyang et al., “Training Language Models to Follow Instructions with Human Feedback” (InstructGPT), 2022
  • Rafailov et al., “Direct Preference Optimization: Your Language Model is Secretly a Reward Model”, 2023
  • Zheng et al., “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena”, 2023