[CS25] Recipe for Training Helpful Chatbots — Nazneen Rajani, HuggingFace
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | Stanford CS25: Transformers United |
| 日期 | Fall 2023 |
![[CS25] Recipe for Training Helpful Chatbots — Nazneen Rajani, HuggingFace](cover.jpg)
引言:H4 项目背景
Nazneen Rajani 是 HuggingFace 的研究科学家,曾领导 H4 团队。H4 代表 Helpful、Harmless、Honest 和 Huggy——目标是在开源预训练模型之上复现 ChatGPT 的对齐“秘方”。
对齐三步曲
OpenAI 在 InstructGPT 论文中提出的经典三步流程:
- 监督微调(SFT):在高质量指令-响应对上微调预训练模型
- 奖励建模(RM):训练奖励模型学习人类偏好
- 强化学习(RLHF):用 PPO 算法根据奖励模型优化策略
监督微调(SFT)
数据选择
SFT 阶段的核心问题是“用什么数据”。H4 团队系统评估了多个开源指令数据集:
- Open Assistant:社区众包的多轮对话数据
- Databricks Dolly:员工编写的指令-响应对
- Self-Instruct / Alpaca:模型生成的合成指令数据
数据质量 \(>\) 数据数量
实验表明,1 万条高质量人工标注数据的效果可以超过 10 万条低质量合成数据。质量体现在:指令多样性、响应准确性、格式一致性。
SFT 训练细节
使用 LLaMA 系列模型作为基座,关键超参数包括:学习率 2e-5、batch size 64、1--3 epoch(避免过拟合)。
本章小结
SFT 是对齐的基础,数据质量是决定性因素。
奖励建模
偏好数据收集
奖励模型的训练需要人类偏好数据:给定同一 prompt,由多个模型生成响应,人类标注员选择更好的那个。
Bradley-Terry 模型
奖励模型通过 Bradley-Terry 模型将偏好排序转化为标量奖励:
其中 \(r(x, y)\) 是奖励模型对 prompt \(x\) 和响应 \(y\) 的打分,\(\sigma\) 为 sigmoid 函数。
数据规模
奖励模型需要大量数据
SFT 可能只需 1 万条数据,但奖励模型通常需要 10 万条以上的偏好对比数据。这是因为 RLHF 的采样效率较低——奖励模型需要在足够多样的响应对上学习细粒度的偏好信号。
本章小结
奖励建模将主观的“好坏”判断量化为可优化的标量信号。
RLHF:强化学习微调
PPO 训练流程
- 从 SFT 模型采样响应
- 用奖励模型打分
- 用 PPO 算法更新策略模型
- 加入 KL 散度惩罚,防止策略偏离 SFT 模型太远
其中 \(\beta\) 控制 KL 惩罚强度,\(\pi_{\text{ref}}\) 是 SFT 参考模型。
DPO:直接偏好优化
DPO 简化了 RLHF
直接偏好优化(DPO)将 RLHF 的两步(训练奖励模型 + PPO 优化)合并为一步:直接在偏好数据上优化策略模型,无需显式的奖励模型。DPO 的训练稳定性更好,超参数更少。
本章小结
RLHF 是对齐流程的核心环节,DPO 等方法正在简化这一过程。
蒸馏与合成数据
知识蒸馏
用更强的模型(如 GPT-4)生成响应,再用这些数据训练较小的模型。这种“蒸馏”方法在 Alpaca、Vicuna 等项目中被广泛使用。
蒸馏的局限性
蒸馏模型往往在风格上模仿教师模型(如生成流畅的长回答),但在事实准确性上可能没有真正提升。Chatbot Arena 等评估表明,蒸馏模型的用户偏好得分可能被“风格分”抬高。
本章小结
蒸馏是快速获取对齐能力的捷径,但不能替代真正的知识获取。
评估方法
自动评估
- MT-Bench:多轮对话基准,GPT-4 作为裁判
- AlpacaEval:GPT-4/Claude 进行成对比较,报告胜率
- Chatbot Arena:公开众包的 ELO 排行榜(LMSYS)
用 LLM 评估 LLM 的偏差
GPT-4 作为评估器存在系统性偏差:偏好更长、更详细的回答,即使这些回答可能包含不准确的信息。人类评估与 GPT-4 评估的相关性约为 80%,仍有显著差距。
人类评估
H4 团队与 Scale AI 合作进行人类评估:生成所有模型组合的响应对(\(\binom{n}{2}\)),由人类标注员逐一比较,计算 ELO 评分。
本章小结
评估仍是对齐研究的最大瓶颈,自动指标和人类判断之间存在 gap。
总结与延伸
本讲系统介绍了开源社区复现 ChatGPT 对齐流程的实践经验。核心教训:(1) SFT 数据质量比数量重要;(2) RLHF 需要大量偏好数据且训练不稳定;(3) 评估仍是最大挑战。DPO 等新方法正在简化流程,但根本问题——“什么是好的回答”——仍需更深入的研究。
拓展阅读
- Ouyang et al., “Training Language Models to Follow Instructions with Human Feedback” (InstructGPT), 2022
- Rafailov et al., “Direct Preference Optimization: Your Language Model is Secretly a Reward Model”, 2023
- Zheng et al., “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena”, 2023