vLLM 推理与部署：参数调优与显存分析

引言

本期展开 vLLM 推理和部署的更多参数和细节，包括显存分析和调优方法。vLLM 有两大应用场景：推理部署和 RL Training 中的在线 rollout。

vLLM 的两大场景

推理部署：Offline Batch Generation + Online Serving（OpenAI API 兼容）
RL Training：在 RL for Language Model 中做模型的 online rollout（如 OpenRLHF 首次引入现代推理引擎到 RL pipeline）

适用于批量处理场景，一次性处理大量请求，最大化吞吐量。

部署为 OpenAI API 兼容的服务，支持实时请求。关键指标：TTFT（首 token 延迟）和 TPS（每秒 token 数）。

模型权重 + KV Cache + 中间激活值。KV Cache 随序列长度线性增长，是长上下文推理的主要瓶颈。

vLLM 的显存消耗主要由模型权重和 KV Cache 决定。合理的参数配置是高效推理的关键。

对于 Agentic RL 训练，推理模式与显存占用并不是两个独立话题。真正的系统瓶颈往往体现在：一边想提高 rollout 吞吐，一边又被 context、batch 和 cache 挤爆显存。理解 online/offline 的差异，本质上是在理解训练系统如何在延迟和吞吐之间做取舍。

排查顺序建议

显存分析不是附属话题，而是 RL 系统设计的一部分。只有吞吐、延迟和显存三者同时平衡，训练管线才能稳定跑起来。