跳转至

veRL 实战:Multi-turn SFT 训练

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于公开课程资料整理
来源 五道口纳什
日期 2025

veRL 实战:Multi-turn SFT 训练

引言

从本期开始,花几期内容介绍 veRL 的实际训练过程。本期介绍字节 ReTool 项目的 Multi-turn SFT 训练。

ReTool 项目

字节 2025 年 4 月发布的 Coding Agent 工作:用户提出复杂计算问题,模型通过写代码、调用环境、执行代码、获取反馈的循环来解决问题。提供了完整的数据集、训练脚本和模型权重。

三大切入点

分析任何模型训练工作,从三个方面切入:

  1. Data:Multi-turn tool-use 数据
  2. Algorithm:SFT(监督微调)
  3. Training:veRL 的训练配置

Multi-turn SFT 的特点

SFT 数据包含多轮 tool call,每轮有 user/assistant/tool 消息。训练时只对 assistant 的输出计算 loss。

本章小结

Multi-turn SFT 是 Agentic RL Training 的前置步骤,为后续 RL 训练提供良好的初始策略。

工程提示:SFT 先把行为轨迹教稳

在 Agentic RL 场景里,Multi-turn SFT 的价值不只是“先训一个能说话的模型”,而是先把 tool-use 的基本行为轨迹教稳。只有模型已经学会在多轮对话里正确地调用工具、读取反馈、继续生成,后续 RL 才不会把大量采样预算浪费在最基础的格式错误上。

为什么先做 SFT 再做 RL

  • SFT 先学会行为模板,降低 RL 的探索难度
  • Multi-turn 数据能教会模型处理 tool 消息的时序结构
  • 好的初始策略能显著提高后续 rollout 的有效比例

本章小结

对 Agentic 系统来说,SFT 是行为对齐的起点。它先把基本交互模式固定下来,再让 RL 去优化更细粒度的策略质量。

总结与延伸

  1. ReTool 提供了完整的 Agentic SFT \(\to\) RL 训练案例
  2. Multi-turn 数据的处理是关键技术点
  3. Data + Algorithm + Training 是分析训练工作的三大框架