跳转至

vLLM 推理与部署:参数调优与显存分析

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于公开课程资料整理
来源 五道口纳什
日期 2025

vLLM 推理与部署:参数调优与显存分析

引言

本期展开 vLLM 推理和部署的更多参数和细节,包括显存分析和调优方法。vLLM 有两大应用场景:推理部署和 RL Training 中的在线 rollout。

vLLM 的两大场景

  • 推理部署:Offline Batch Generation + Online Serving(OpenAI API 兼容)
  • RL Training:在 RL for Language Model 中做模型的 online rollout(如 OpenRLHF 首次引入现代推理引擎到 RL pipeline)

Online vs. Offline 推理

Offline Batch Generation

适用于批量处理场景,一次性处理大量请求,最大化吞吐量。

Online Serving

部署为 OpenAI API 兼容的服务,支持实时请求。关键指标:TTFT(首 token 延迟)和 TPS(每秒 token 数)。

显存分析

模型权重 + KV Cache + 中间激活值。KV Cache 随序列长度线性增长,是长上下文推理的主要瓶颈。

本章小结

vLLM 的显存消耗主要由模型权重和 KV Cache 决定。合理的参数配置是高效推理的关键。

系统视角:吞吐受限时先查哪里

对于 Agentic RL 训练,推理模式与显存占用并不是两个独立话题。真正的系统瓶颈往往体现在:一边想提高 rollout 吞吐,一边又被 context、batch 和 cache 挤爆显存。理解 online/offline 的差异,本质上是在理解训练系统如何在延迟和吞吐之间做取舍。

排查顺序建议

  • 先看每轮 rollout 的 token 数和并发数
  • 再看 KV cache、batch size 是否占满显存
  • 最后再决定采用 online 还是 offline 推理编排

本章小结

显存分析不是附属话题,而是 RL 系统设计的一部分。只有吞吐、延迟和显存三者同时平衡,训练管线才能稳定跑起来。

总结与延伸

  1. vLLM 同时服务于推理部署和 RL Training
  2. Offline 和 Online 两种模式各有优化方向
  3. 显存分析:模型权重 + KV Cache + 激活值