veRL Agentic Loop 实践

引言

本期正式进入 Agentic RL 训练的核心：veRL 中的 Agentic Loop 实现。

Agentic Loop 的概念

Agent 通过多轮 think-act-observe 循环与环境交互。在 RL 训练中，模型需要在每一步：

这个 Multi-turn 过程由配置文件控制。

核心代码文件：agentloop.py，包含：

AgentLoopManager 的 generate_sequence 方法是核心，将所有组件统一管理起来。

veRL 的 Agentic Loop 提供了完整的 Multi-turn RL 训练框架。

理解 veRL 的 Agentic Loop，不只是记住几个类名，而是要看清它如何把多轮推理、工具调用和服务管理拆开。Manager 负责 orchestration，Worker 负责执行，LoopBase 负责定义抽象接口，这种分层使系统可以在不同任务之间复用基础设施。

为什么这种架构适合 Agentic RL

Agentic Loop 的重点不是某个类写得多复杂，而是它把 think-act-observe 这套交互逻辑抽象成了可复用的系统骨架。