veRL Agentic Loop 计算细节：异步与状态管理

引言

本期回答 Agentic Loop 实现中的关键问题：为什么要异步？如何管理不同状态？

异步的必要性

Agentic Loop 中，不同 sample 的 Multi-turn 步数不同。如果同步等待最慢的 sample，效率极低。异步执行让已完成的 sample 先返回，最大化 GPU 利用率。

Agentic Loop 中每个 sample 可能处于不同状态：

状态转换由配置文件控制：配置了 tool 则调用 tool，配置了 interaction 则模拟用户反馈。

异步执行和精细的状态管理是 Agentic Loop 高效运行的关键。

Agentic Loop 的异步执行能力本质上依赖于状态机。如果状态定义不清、转换条件模糊，系统很容易在多轮工具调用里出现卡死、重复执行或错误回收资源的问题。

状态管理常见风险

异步系统最怕“状态说不清”。把状态边界和转换条件写清楚，比盲目追求更多并发更重要。