veRL 实战：Multi-turn SFT 训练

引言

从本期开始，花几期内容介绍 veRL 的实际训练过程。本期介绍字节 ReTool 项目的 Multi-turn SFT 训练。

ReTool 项目

字节 2025 年 4 月发布的 Coding Agent 工作：用户提出复杂计算问题，模型通过写代码、调用环境、执行代码、获取反馈的循环来解决问题。提供了完整的数据集、训练脚本和模型权重。

分析任何模型训练工作，从三个方面切入：

SFT 数据包含多轮 tool call，每轮有 user/assistant/tool 消息。训练时只对 assistant 的输出计算 loss。

Multi-turn SFT 是 Agentic RL Training 的前置步骤，为后续 RL 训练提供良好的初始策略。

在 Agentic RL 场景里，Multi-turn SFT 的价值不只是“先训一个能说话的模型”，而是先把 tool-use 的基本行为轨迹教稳。只有模型已经学会在多轮对话里正确地调用工具、读取反馈、继续生成，后续 RL 才不会把大量采样预算浪费在最基础的格式错误上。

为什么先做 SFT 再做 RL

对 Agentic 系统来说，SFT 是行为对齐的起点。它先把基本交互模式固定下来，再让 RL 去优化更细粒度的策略质量。