veRL 实战:Multi-turn SFT 训练
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | 五道口纳什 |
| 日期 | 2025 |

引言
从本期开始,花几期内容介绍 veRL 的实际训练过程。本期介绍字节 ReTool 项目的 Multi-turn SFT 训练。
ReTool 项目
字节 2025 年 4 月发布的 Coding Agent 工作:用户提出复杂计算问题,模型通过写代码、调用环境、执行代码、获取反馈的循环来解决问题。提供了完整的数据集、训练脚本和模型权重。
三大切入点
分析任何模型训练工作,从三个方面切入:
- Data:Multi-turn tool-use 数据
- Algorithm:SFT(监督微调)
- Training:veRL 的训练配置
Multi-turn SFT 的特点
SFT 数据包含多轮 tool call,每轮有 user/assistant/tool 消息。训练时只对 assistant 的输出计算 loss。
本章小结
Multi-turn SFT 是 Agentic RL Training 的前置步骤,为后续 RL 训练提供良好的初始策略。
工程提示:SFT 先把行为轨迹教稳
在 Agentic RL 场景里,Multi-turn SFT 的价值不只是“先训一个能说话的模型”,而是先把 tool-use 的基本行为轨迹教稳。只有模型已经学会在多轮对话里正确地调用工具、读取反馈、继续生成,后续 RL 才不会把大量采样预算浪费在最基础的格式错误上。
为什么先做 SFT 再做 RL
- SFT 先学会行为模板,降低 RL 的探索难度
- Multi-turn 数据能教会模型处理 tool 消息的时序结构
- 好的初始策略能显著提高后续 rollout 的有效比例
本章小结
对 Agentic 系统来说,SFT 是行为对齐的起点。它先把基本交互模式固定下来,再让 RL 去优化更细粒度的策略质量。
总结与延伸
- ReTool 提供了完整的 Agentic SFT \(\to\) RL 训练案例
- Multi-turn 数据的处理是关键技术点
- Data + Algorithm + Training 是分析训练工作的三大框架