[CS25 V5] RL as a Co-Design of Product and Research — Karina Nguyen, OpenAI
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | Stanford CS25: Transformers United V5 |
| 日期 | Spring 2025 |
![[CS25 V5] RL as a Co-Design of Product and Research — Karina Nguyen, OpenAI](cover.jpg)
引言:AI 的创造力愿景
Karina Nguyen 目前就职于 OpenAI,此前曾在 Anthropic 工作,横跨产品与研究两个领域。本次讲座的核心主题是强化学习如何成为产品与研究的协同设计工具,以及 AI 实验室中前沿产品研究(Frontier Product Research)的方法论。
讲座以一系列令人振奋的 AI 应用场景开场,展示当前 AI 能力的广度:
- 教育民主化:ChatGPT 可以个性化地解释复杂概念(如高斯分布),并通过 Canvas 生成可视化代码
- 论文理解:截图一篇论文的内容,模型可以在独立的 Canvas 窗口中逐步解释
- 个人工具创造:任何人都可以让 AI 生成前端代码来构建个性化工具、游戏
- 创意增强:图像生成模型让素描变为高质量图像,AI 成为创意伙伴
Karina 的核心信念
AI 应当增强人类的创造力,而非取代它。每个人都可以利用 AI 工具成为创作者、艺术家或构建者,创造出之前不可能实现的东西。
两大扩展范式
下一个 Token 预测(预训练扩展)
第一个范式是经典的下一个 token 预测——模型通过在海量文本上预测下一个 token 来学习世界知识。这种方式使模型成为一台“世界构建机器”,能够在大规模上理解世界。
但它也有局限性:如果模型在生成早期预测了一个错误的 token,整个叙述的连贯性可能会丢失——这在长文本写作中尤为突出。
思维链上的强化学习(推理扩展)
第二个范式是在思维链(Chain-of-Thought)上进行强化学习,这是 OpenAI 推理工作(o1/o3 系列)的核心。这种方法使模型能够处理更复杂的、需要多步推理的真实世界任务。
RL 扩展是独立的新范式
RL 在思维链上的扩展是一个独立于预训练扩展的新范式。基于此训练的 Agent(如 Operator、Deep Research)能够执行之前不可能完成的真实世界任务。
本章小结
预训练扩展为模型提供知识基础,RL 扩展为模型赋予推理和行动能力,两者共同推动 AI 从对话工具向行动工具的转变。
前沿产品研究方法论
两种产品-研究路径
Karina 基于在 Anthropic 和 OpenAI 的经验,总结了两种构建研究驱动型产品的路径:
- 为陌生能力创造熟悉的形态:当模型具备用户不了解的新能力时,产品的任务是将其包装成用户熟悉的交互形式。
- 为熟悉需求创造新形态:当用户有明确的需求但现有交互方式受限时,产品需要突破既有范式来满足需求。
Canvas 就是第二种路径的典型案例——ChatGPT 最初是纯对话界面,但随着用户大量使用它进行代码生成和长文写作,对话形式变得过于局限,Canvas 应运而生,允许用户与 AI 进行更细粒度的协作。
产品飞轮与研究飞轮
产品驱动研究的飞轮效应
产品发布 \(\to\) 用户使用产生真实数据 \(\to\) 数据揭示模型弱点 \(\to\) 研究改进模型 \(\to\) 更好的产品。这个飞轮使得产品和研究相互加速,而非独立发展。
本章小结
前沿产品研究要求研究者同时理解模型能力和用户需求,在两者之间找到创新的结合点。
后训练中的行为塑造
过度拒绝问题
Karina 以 Claude 2.1 的过度拒绝(Over-refusal)问题为案例,详细讲解了后训练中的行为调试方法。Claude 2.1 会拒绝一些表面上听起来有害但实际上无害的请求(例如创意写作中的虚构犯罪场景)。
调试原则包括:
- 模型应对用户请求做善意解读(Charitable Interpretation),而非假设最坏意图
- 使用非暴力沟通原则:用“我”陈述代替“你”判断
- 模型应明确自己的边界,并以同理心表达拒绝
拒绝分类学
为系统化解决过度拒绝问题,团队构建了一套拒绝分类体系:
- 对无害提示的拒绝
- 创意写作中的拒绝
- 工具调用/函数调用中的错误拒绝(如模型声称“无法看到”用户上传的文件)
- 长文档附件的错误拒绝
- 对用户意图的误判性拒绝
评估体系构建
对于主观性强的行为改进,评估体系至关重要:
- 从产品飞轮中收集真实的过度拒绝案例
- 合成生成处于“有害”与“有帮助”边界的测试提示
- 利用开源基准(如 XSTest、WildChat 等)
行为调试的复杂性
模型行为的问题往往不是由单一数据源引起的。修复过度拒绝需要同时考虑数据清洗、SFT 数据、偏好数据和奖励模型等多个环节,类似于调试复杂软件系统。
本章小结
后训练中的行为塑造需要精细的分类学、系统化的评估体系,以及对模型行为进行类似软件调试的方法论。
RL 在真实世界任务中的应用
从学术任务到真实任务
传统 RL 训练模型的任务(如数学、编程竞赛)正在向真实世界任务转变:
- Deep Research:自主进行深度网络研究
- Operator:在真实网站上执行操作任务
- Canvas:与用户协作进行代码编写和文档编辑
这些产品的背后是 RL 在思维链上的扩展——模型学会了规划、搜索、纠错等高级认知能力。
社会智能的缺失
Karina 认为当前 AI 成为真正“协作伙伴”的最大瓶颈不是技术能力,而是社会智能:
- 能否实时理解用户的意图和情感状态?
- 能否判断何时应该主动帮助、何时应该退让?
- 能否通过语音、手势等多模态通道进行自然交互?
本章小结
RL 正在从学术基准走向真实世界应用,而社会智能和多模态交互是下一个需要突破的前沿。
总结与延伸
本讲展现了一个从 OpenAI/Anthropic 一线研究者视角看到的全景:AI 产品与研究不再是独立的过程,而是通过 RL 紧密耦合的共同设计。核心洞见包括:
- 两大扩展范式:预训练扩展提供知识,RL 扩展提供推理和行动能力。
- 产品即研究:真实用户数据是改进模型行为最有价值的信号源。
- 行为塑造是工程:后训练中的行为调优需要分类学、评估体系和系统化调试方法。
- 创造力是方向:AI 的终极价值在于增强人类的创造力和想象力。
拓展阅读
- OpenAI, “Learning to Reason with LLMs” (o1 Blog Post), 2024
- Anthropic, “Claude's Character”, 2024
- Karina Nguyen, “Moral Progress” (Substack Blog Post)
- Bai et al., “Training a Helpful and Harmless Assistant with RLHF”, 2022