veRL Agentic Loop 代码详解

引言

本期深入 veRL 的 Agentic Loop 代码，详细分析 agentloop.py 的实现。

抽象基类，run 方法是抽象方法，需要用户自定义。官方提供了 Singleton 和 TwoAgents 两种实现。

封装了单个 Agent 的执行逻辑，管理状态转换。

最核心的类，通过 generate_sequence 方法协调所有组件：

veRL 的 Agentic Loop 追求：

AgentLoopManager 是 veRL Agentic RL 的大脑，统一管理推理、工具调用和训练的协调。

把 Base、Worker、Manager 三层拆开，并不是为了“代码更好看”，而是为了让 Agentic Loop 可以在不同任务间复用。真正变化最快的是具体任务逻辑，而不是状态管理和推理调度，因此统一抽象层能显著降低后续实验成本。

读框架代码时先看什么

理解 AgentLoopManager 的最佳方式，不是死记函数名，而是看清哪些职责被稳定地抽象出来，哪些职责被故意留给自定义逻辑。