vLLM 推理与部署:参数调优与显存分析
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | 五道口纳什 |
| 日期 | 2025 |

引言
本期展开 vLLM 推理和部署的更多参数和细节,包括显存分析和调优方法。vLLM 有两大应用场景:推理部署和 RL Training 中的在线 rollout。
vLLM 的两大场景
- 推理部署:Offline Batch Generation + Online Serving(OpenAI API 兼容)
- RL Training:在 RL for Language Model 中做模型的 online rollout(如 OpenRLHF 首次引入现代推理引擎到 RL pipeline)
Online vs. Offline 推理
Offline Batch Generation
适用于批量处理场景,一次性处理大量请求,最大化吞吐量。
Online Serving
部署为 OpenAI API 兼容的服务,支持实时请求。关键指标:TTFT(首 token 延迟)和 TPS(每秒 token 数)。
显存分析
模型权重 + KV Cache + 中间激活值。KV Cache 随序列长度线性增长,是长上下文推理的主要瓶颈。
本章小结
vLLM 的显存消耗主要由模型权重和 KV Cache 决定。合理的参数配置是高效推理的关键。
系统视角:吞吐受限时先查哪里
对于 Agentic RL 训练,推理模式与显存占用并不是两个独立话题。真正的系统瓶颈往往体现在:一边想提高 rollout 吞吐,一边又被 context、batch 和 cache 挤爆显存。理解 online/offline 的差异,本质上是在理解训练系统如何在延迟和吞吐之间做取舍。
排查顺序建议
- 先看每轮 rollout 的 token 数和并发数
- 再看 KV cache、batch size 是否占满显存
- 最后再决定采用 online 还是 offline 推理编排
本章小结
显存分析不是附属话题,而是 RL 系统设计的一部分。只有吞吐、延迟和显存三者同时平衡,训练管线才能稳定跑起来。
总结与延伸
- vLLM 同时服务于推理部署和 RL Training
- Offline 和 Online 两种模式各有优化方向
- 显存分析:模型权重 + KV Cache + 激活值