veRL FSDP SFT Trainer 详解

引言

本期介绍 veRL 中简洁高效的 FSDP SFT Trainer，回顾 SFT 训练的完整过程。

两大设计维度

核心是 get_item 函数：将 prompt-response 数据转换为模型输入。关键点：

veRL 的 SFT Trainer 代码极其简洁清晰，是学习 SFT 实现细节的优秀模板。FSDP（Fully Sharded Data Parallel）实现了分布式训练。

veRL 的 SFT Trainer 是一个优秀的参考实现，代码简洁、可读性强。

这节课的价值，在于把 Dataset 和 Trainer 两个核心抽象钉得很清楚。真正阅读框架代码时，最值得先跟的是：一个样本如何从 get_item 进入 batch，再流入 Trainer 完成前向与反向传播。

阅读训练框架的最短路径

理解训练框架，不一定要先啃最复杂的分布式代码；先看数据流和 Trainer 逻辑，往往更容易建立全局认识。