REINFORCE 算法在语言模型中的应用
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | 五道口纳什 |
| 日期 | 2025 |

引言
本期将 REINFORCE 算法应用到语言模型中,实现一个简单效果:不管输入什么 prompt,模型输出都包含特定语义(如 ``mode)。
Reward 环境设计
基于 Cosine Similarity 的 Reward
Reward 定义
- 语言模型 rollout 生成一个序列(句子)
- 计算该句子的 embedding
- 计算目标词(如 ``mode)的 embedding
- 两者的 cosine similarity 作为 reward
REINFORCE 实现
算法流程
- 从当前策略 \(\pi_\theta\) 采样生成序列
- 计算每个序列的 reward(cosine similarity)
- 计算 PG Loss 并反向传播更新 \(\theta\)
本章小结
REINFORCE 是最朴素的 PG 算法,可以直接应用于语言模型,将 RL 的概念落地到实际的文本生成任务中。
工程提示:reward 设计要服务于训练反馈
这节课虽然重点在 reward 环境设计与 REINFORCE 实现,但真正落地时最关键的问题是:reward 是否能稳定地区分“值得强化”和“不值得强化”的行为。如果 reward 太稀疏、太晚出现,或者和最终目标错位,再正确的策略梯度实现也会学得很慢。
常见环境设计误区
- 只有最终成功奖励,没有中间反馈,导致 credit assignment 太难
- 奖励过于密集,却没有约束正确方向,导致模型钻空子
- 环境状态不稳定,让同一动作在不同轮次得到冲突反馈
本章小结
环境和 reward 设计决定了 RL 信号的质量。与其一味调算法,不如先确认奖励是否真的在推动目标行为出现。
总结与延伸
- REINFORCE 可以直接用于语言模型的 RL 训练
- Reward 环境可以用 embedding similarity 定义
- 这是理解更复杂的 PPO/GRPO 的基础