跳转至

青稞 AI 嘉年华:Infra 专题讨论

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于青稞 AI 嘉年华公开讨论整理
来源 青稞社区
日期 2026-04-02

青稞 AI 嘉年华:Infra 专题讨论

2025 年 Infra 的主旋律:从推理集群化到 RL / Agent Infra

为什么基础设施第一次成为舞台中央

panel 的开场就把问题框得很清楚:2025 年 Infra 不再只是后台支持,而是模型能力能否落地的前提条件。几位嘉宾都提到一个共同感受,过去行业讨论更多聚焦模型本身、算法创新和数据规模,但到 2025 年,大家开始反复意识到 “同样的模型,如果基础设施不行,就无法在真实负载下释放能力”。

Infra 在 2025 年的重要性为什么显著上升

原因至少有三点:

  • 推理从单机实验转向大规模生产,吞吐、延迟、资源分层必须系统化设计;
  • RL、Agent、multi-modality 带来了更长 rollout、更异构的 workload 和更复杂的反馈链路;
  • 行业开始不只是训练模型,而是在训练一整套能和外部系统交互的服务系统。

这种变化意味着,Infra 不再只是 “把算子跑快”,而是开始决定研究范式本身。例如当大家讨论 Agent RL 是否可行时,本质上讨论的是 rollout 引擎、环境搭建、训练推理结合和故障恢复是否足以支撑实验闭环。

上半年关键词:推理集群化

张明星给出了一个非常鲜明的分段:2025 年上半年的主题是推理集群化,下半年的主题则更偏 RL infra 的 scaling。这个切分很有启发性,因为它说明行业不是同时解决所有问题,而是先把在线推理这件事做成工业化基座,再把 RL、Agent 这种更复杂 workload 接上来。

“上半年大家其实就是推理的集群化;下半年主题基本上就是 RL infra 怎么去 scaling up / scaling out。”

为什么推理集群化是 RL / Agent Infra 的前置条件

因为很多新 workload 的瓶颈并不在 backprop,而在 rollout、sampling 和 environment interaction。换句话说,如果推理引擎不能稳定、高吞吐、低碎片地工作,那么后续 RL / Agent 训练根本没有足够便宜的 feedback loop。

本章小结

2025 年 Infra 之所以重要,不是因为系统工程忽然变成热门话题,而是因为模型训练和产品部署都被逼到了 “必须系统化” 的阶段。推理集群化先成为上半年主线,随后 RL / Agent infra 接过接力棒,构成了全年讨论的主轴。

推理基础设施的成熟:PD 分离、大 EP 与云边协同

PD 分离为什么会迅速普及

嘉宾反复提到的第一个关键词是 PD 分离,即 Prefill-Decode Disaggregation。它之所以在 2025 年从研究概念迅速变成生产架构,是因为推理 workload 的两个阶段对硬件的需求完全不同:Prefill 更吃计算,Decode 更吃带宽与 KV cache 管理。把两者强行绑在一套机器上,本质上是在浪费资源。

PD 分离的工程价值

PD 分离让推理集群第一次有了更细粒度的资源编排方式:

  • Prefill 节点可以针对高算力做优化;
  • Decode 节点可以针对高带宽和缓存容量做优化;
  • 整体系统更容易根据流量变化独立扩容;
  • 开源社区和工业部署之间的技术转化速度明显加快。

张明星提到,去年刚开始做相关项目时,使用者还不多;到了 2025 年,在社区合作推动下,几乎所有主要厂商都采用了类似架构。这很能说明一个趋势:当 workload 变得足够大,架构层优化会比局部 kernel 优化更快形成行业共识。

大 EP 与 MoE 推理:容量扩张的另一条线

另一条推理基础设施主线是大规模 Expert Parallelism。随着 MoE 模型继续扩张,专家路由和跨卡通信的开销越来越高,Infra 需要回答的不只是 “模型能不能放下”,还包括 “专家如何切分”、“跨节点通信如何避免拖垮延迟”、“服务如何在吞吐和尾延迟间折中”。

MoE Infra 的难点不是简单多加几张卡

Expert 越多,路由、负载均衡、跨设备激活传输就越复杂。如果调度策略和部署拓扑没设计好,大 EP 反而可能让系统在通信和碎片化上吃亏。

云侧与边缘侧不是同一类优化问题

panel 的另一个实用点,是把云端与边缘端推理明确区分开来。嘉宾所做的两个开源方向,一个偏云侧分布式集群推理优化,一个偏边缘侧 CPU-GPU 异构推理优化。这对应两种完全不同的系统目标:云侧追求总吞吐、资源池化和多租户效率;边缘侧更关心单机延迟、功耗和本地隐私。

部署形态 主要目标 典型 Infra 关注点
云侧集群 吞吐、扩缩容、多租户利用率 PD 分离、大 EP、跨节点通信、服务编排
边缘端 低延迟、低功耗、隐私、本地可用性 CPU-GPU 异构、算子裁剪、内存占用、设备适配
混合模式 成本与体验折中 热路径本地化、冷路径云端化、状态同步
同样是 “推理优化”,云侧与边缘侧的优化目标并不相同

本章小结

推理 Infra 在 2025 年最重要的突破,不是某一个项目名称,而是整个行业对架构级优化达成了更明确的共识:PD 分离、大 EP、云边协同都在告诉我们,推理已经从 “单卡跑通” 演进到了 “按 workload 特征重构系统”。

RL / Agent Infra:当 Actor 变大、Rollout 变长、环境变复杂

RL 的瓶颈越来越像推理问题

多位嘉宾明确指出,今天 RL infra 的主要卡点是 rollout,而不是训练本身。这一点很关键,因为它解释了为什么推理引擎、缓存管理、环境接口和数据回流,会在 RL 时代重新占据系统设计中心。尤其是模型变大、rollout 变长后,传统 RL 框架面对的是和过去完全不同的 Actor。

今天的大模型 RL 和传统 RL 的本质差别

嘉宾拿早年的 MuJoCo / Atari 系统作比较,指出差异主要体现在三点:

  • Actor 从几兆参数网络,变成了巨大的 LM / VLM;
  • 环境从相对固定的小型 simulator,变成了更动态、更异构的真实工具和服务;
  • rollout 不再是廉价 forward,而是一次完整的推理与交互过程。

长 rollout 和大模型把系统压力成倍放大

嘉宾们提到了几个非常具体的挑战:模型更大时如何做 RL、rollout 特别长时如何做 RL、multi-modality 和 Agent workload 如何做 RL。这些问题看似算法问题,实际上都直接映射到系统压力。比如 rollout 变长意味着缓存更久、调度更复杂、失败恢复成本更高;环境更复杂意味着训练框架必须支持更异构的数据流和状态流。

为什么 RL infra 需要训推结合

如果训练框架和推理框架完全割裂,就会出现几个问题:

  • rollout 结果回传链路过长;
  • 状态管理分散在多个系统中;
  • 调试故障时很难定位是在训练、推理还是环境侧;
  • 算法侧和系统侧往往会 “大眼瞪小眼”,谁都觉得瓶颈在对方。

Agent RL 把环境构造问题推到台前

传统 RL 常常假设环境已经给定,但在 Agent 任务中,环境本身就是系统设计的一部分。panel 中多次提到 environment construction、workflow construction、real world task、failure handling 等问题,这说明 Agent RL 不只是 “在既有环境中学策略”,而是经常要先把环境搭出来,再让模型去学。

环境如果构造不好,RL 就会学偏

嘉宾提到一个核心痛点:很多系统在单环境里能训练得很好,一旦跨环境就不泛化。也就是说,环境搭建差异、任务结构差异、奖励形式差异都会直接成为泛化问题。这不是简单增加数据量就能抹掉的误差。

本章小结

RL / Agent Infra 的复杂度,来自三个变量同时变化:Actor 变大、rollout 变长、环境变复杂。于是系统设计的重点也从 “把训练跑起来” 转向 “让训练、推理、环境和数据回流形成可复现、可扩展的闭环”。

训练系统正在从单主线框架变成异构调度系统

为什么传统训练框架不再够用

panel 里有一个非常准确的观察:过去两年围绕 pretraining 优化出来的框架,本质上是一个 “过于有主线” 的特例。输入长度、前向结构、数据流向都相对规整,所以系统很容易围绕统一主线优化。但到了 RL、Agent、multi-modal 和 workflow-driven workload,输入输出结构变得更加异构,很多系统假设开始失效。

“今年在做训练系统设计的时候,重点是怎么把 infra 问题模块化抽离出来,同时把推理框架和训练框架联合起来。”

训练系统的新目标不是更单一,而是更模块化

新的设计方向更像这样:

  • 让训练框架和推理框架共享更稳定的接口;
  • 把 environment、reward、workflow、failure handling 模块化;
  • 允许不同 workload 跑在不同硬件和不同精度配置上;
  • 让系统先接住异构性,再谈性能榨取。

故障、文件系统和异构硬件成为常态

嘉宾们谈到的很多细节非常 “Infra 味”:文件系统挂载失败怎么办,训练有故障时怎么恢复,不同卡的精度特征和稳定性差异怎么处理,跨 cluster 训练怎么调度。这里释放出的信号很明确,Agent / RL 时代的训练系统不再是理想实验室条件,而是默认在一个会失败、会波动、会异构的世界里运行。

为什么 event-driven 与动态系统会变重要

Agent workflow 不再是单一路径的张量流水线,而是感知环境、调用工具、等待反馈、再决定下一步。这天然更接近 event-driven system,而不是静态 batch training。系统需要处理的不再只是张量,而是异步事件、状态更新和 heterogeneous workflow。

系统和算法必须共同演化

几位嘉宾提到了一个常见场景:算法侧说系统太慢,系统侧说 workload 太不规整。这种张力并不是坏事,反而说明 Agent 时代已经把 “算法创新” 和 “系统支持” 拉到了同一张桌子上。过去可以先做出算法、再交给系统适配;现在很多能力如果没有对应的 Infra,算法甚至无法被可靠验证。

只追求系统性能,或者只追求算法新意,都会失真

如果系统性能很高,但只适配单一 workload,那么一换环境就失效;如果算法思路很新,但系统无法稳定复现,也无法成为社区共识。Infra 专题真正强调的是两者要形成共同的迭代速度。

本章小结

训练系统正在从 “单主线框架” 变成 “异构调度系统”。这一转变背后是 workload 的变化:从规整的 pretraining 转向 event-driven、environment-heavy、failure-prone 的 RL / Agent workload。系统设计的中心,已经从静态性能转向动态可承载性。

2026 展望:训练的不只是模型,而是整个系统

从模型中心走向系统中心

panel 后段有一句非常值得记住的话:未来不只是训练模型,而是在训练一个系统。这里的系统包括模型前后的渲染、推理、工作流、环境构造、数据回流和部署接口。它意味着 “模型” 不再是唯一优化对象,而只是整条链路里最核心、但不是唯一的一环。

2026 年高概率继续扩张的方向

  • 推理与训练的结合会继续加深,训推分离会从架构问题变成 workload 问题;
  • Agent environment 的构造会成为重要工程能力;
  • 多模态、RL 与 Agent workload 会继续推动系统异构化;
  • 历史上的分布式系统、数据库与容错经验,会被重新引入大模型 Infra。

Infra 的终局不是隐藏,而是成为默认能力

从 panel 的语气能听出来,嘉宾们并不追求让用户直接感知 Infra,而是希望它最终退到后台,成为系统默认具备的支撑能力。也就是说,当我们讨论 “Agent 产品好不好用” 时,很多真实决定因素其实都藏在 rollout 引擎、缓存策略、调度系统、环境接口和故障恢复里。

方向 系统目标 Infra 侧关键问题
推理继续集群化 更高吞吐、更低尾延迟 PD 分离、专家并行、跨节点调度
RL / Agent 规模化 更长 rollout、更大环境、更复杂反馈 训推结合、environment 接口、reward 回流
异构训练系统 支持更多 workload 与硬件组合 模块化抽象、故障恢复、精度管理
产业落地 让模型真正接入应用链路 文件系统、权限、workflow、稳定性
把整场讨论压缩成 “Infra 下一步要接住什么”

本章小结

这场 Infra 专题最终落到一个非常明确的判断:大模型系统的下一个阶段,不是单纯堆更多卡,而是让推理、训练、环境和工作流形成一个真正可扩展的整体系统。这也是 Infra 在 Agent 时代重新变成主线的根本原因。

总结与延伸

核心观点总览

主题 panel 结论 对应系统问题
推理 Infra PD 分离、大 EP 已经进入生产主流 如何按 workload 重新组织资源?
RL Infra rollout 是核心瓶颈,训推结合越来越重要 如何让大模型 RL 可扩展?
Agent Infra 环境、workflow、事件流使系统更动态 如何承接真实工具与真实失败?
训练系统 从单主线框架走向异构调度系统 如何模块化拆出 infra 问题?
未来方向 不只是训练模型,而是在训练系统 如何让系统和算法共同迭代?
Infra 专题最值得记住的五条线索

三条实践导向的 takeaway

  1. 如果工作负载已经变成 Agent / RL / multi-modal,就不要再用纯 pretraining 的眼光设计系统。
  2. 真正限制大模型能力上限的,越来越多是 rollout、environment、调度和故障恢复,而不是单一算子速度。
  3. 基础设施成熟的标志,不是用户感知到它很复杂,而是它能在复杂 workload 下保持稳定、可复现、可扩展。

Infra 专题的真正启发

它提醒我们,大模型时代的 “系统” 不是附属品,而是能力的一部分。很多看起来是算法瓶颈的问题,只有在系统设计、环境构造和部署接口都跟上时,才可能真正被解决。

拓展阅读

  • MoonCake、KTransformers、vLLM、SGLang 等推理系统资料
  • RL infra 与 rollout engine 相关开源项目和论文
  • Agent environment / world model / benchmark 构造方向工作
  • 分布式训练、容错恢复、文件系统与数据库在 AI Infra 中的迁移经验
  • 关于 heterogeneous workflow 和 event-driven AI systems 的工程实践