青稞 AI 嘉年华:Infra 专题讨论
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于青稞 AI 嘉年华公开讨论整理 |
| 来源 | 青稞社区 |
| 日期 | 2026-04-02 |

2025 年 Infra 的主旋律:从推理集群化到 RL / Agent Infra
为什么基础设施第一次成为舞台中央
panel 的开场就把问题框得很清楚:2025 年 Infra 不再只是后台支持,而是模型能力能否落地的前提条件。几位嘉宾都提到一个共同感受,过去行业讨论更多聚焦模型本身、算法创新和数据规模,但到 2025 年,大家开始反复意识到 “同样的模型,如果基础设施不行,就无法在真实负载下释放能力”。
Infra 在 2025 年的重要性为什么显著上升
原因至少有三点:
- 推理从单机实验转向大规模生产,吞吐、延迟、资源分层必须系统化设计;
- RL、Agent、multi-modality 带来了更长 rollout、更异构的 workload 和更复杂的反馈链路;
- 行业开始不只是训练模型,而是在训练一整套能和外部系统交互的服务系统。
这种变化意味着,Infra 不再只是 “把算子跑快”,而是开始决定研究范式本身。例如当大家讨论 Agent RL 是否可行时,本质上讨论的是 rollout 引擎、环境搭建、训练推理结合和故障恢复是否足以支撑实验闭环。
上半年关键词:推理集群化
张明星给出了一个非常鲜明的分段:2025 年上半年的主题是推理集群化,下半年的主题则更偏 RL infra 的 scaling。这个切分很有启发性,因为它说明行业不是同时解决所有问题,而是先把在线推理这件事做成工业化基座,再把 RL、Agent 这种更复杂 workload 接上来。
“上半年大家其实就是推理的集群化;下半年主题基本上就是 RL infra 怎么去 scaling up / scaling out。”
为什么推理集群化是 RL / Agent Infra 的前置条件
因为很多新 workload 的瓶颈并不在 backprop,而在 rollout、sampling 和 environment interaction。换句话说,如果推理引擎不能稳定、高吞吐、低碎片地工作,那么后续 RL / Agent 训练根本没有足够便宜的 feedback loop。
本章小结
2025 年 Infra 之所以重要,不是因为系统工程忽然变成热门话题,而是因为模型训练和产品部署都被逼到了 “必须系统化” 的阶段。推理集群化先成为上半年主线,随后 RL / Agent infra 接过接力棒,构成了全年讨论的主轴。
推理基础设施的成熟:PD 分离、大 EP 与云边协同
PD 分离为什么会迅速普及
嘉宾反复提到的第一个关键词是 PD 分离,即 Prefill-Decode Disaggregation。它之所以在 2025 年从研究概念迅速变成生产架构,是因为推理 workload 的两个阶段对硬件的需求完全不同:Prefill 更吃计算,Decode 更吃带宽与 KV cache 管理。把两者强行绑在一套机器上,本质上是在浪费资源。
PD 分离的工程价值
PD 分离让推理集群第一次有了更细粒度的资源编排方式:
- Prefill 节点可以针对高算力做优化;
- Decode 节点可以针对高带宽和缓存容量做优化;
- 整体系统更容易根据流量变化独立扩容;
- 开源社区和工业部署之间的技术转化速度明显加快。
张明星提到,去年刚开始做相关项目时,使用者还不多;到了 2025 年,在社区合作推动下,几乎所有主要厂商都采用了类似架构。这很能说明一个趋势:当 workload 变得足够大,架构层优化会比局部 kernel 优化更快形成行业共识。
大 EP 与 MoE 推理:容量扩张的另一条线
另一条推理基础设施主线是大规模 Expert Parallelism。随着 MoE 模型继续扩张,专家路由和跨卡通信的开销越来越高,Infra 需要回答的不只是 “模型能不能放下”,还包括 “专家如何切分”、“跨节点通信如何避免拖垮延迟”、“服务如何在吞吐和尾延迟间折中”。
MoE Infra 的难点不是简单多加几张卡
Expert 越多,路由、负载均衡、跨设备激活传输就越复杂。如果调度策略和部署拓扑没设计好,大 EP 反而可能让系统在通信和碎片化上吃亏。
云侧与边缘侧不是同一类优化问题
panel 的另一个实用点,是把云端与边缘端推理明确区分开来。嘉宾所做的两个开源方向,一个偏云侧分布式集群推理优化,一个偏边缘侧 CPU-GPU 异构推理优化。这对应两种完全不同的系统目标:云侧追求总吞吐、资源池化和多租户效率;边缘侧更关心单机延迟、功耗和本地隐私。
| 部署形态 | 主要目标 | 典型 Infra 关注点 |
|---|---|---|
| 云侧集群 | 吞吐、扩缩容、多租户利用率 | PD 分离、大 EP、跨节点通信、服务编排 |
| 边缘端 | 低延迟、低功耗、隐私、本地可用性 | CPU-GPU 异构、算子裁剪、内存占用、设备适配 |
| 混合模式 | 成本与体验折中 | 热路径本地化、冷路径云端化、状态同步 |
本章小结
推理 Infra 在 2025 年最重要的突破,不是某一个项目名称,而是整个行业对架构级优化达成了更明确的共识:PD 分离、大 EP、云边协同都在告诉我们,推理已经从 “单卡跑通” 演进到了 “按 workload 特征重构系统”。
RL / Agent Infra:当 Actor 变大、Rollout 变长、环境变复杂
RL 的瓶颈越来越像推理问题
多位嘉宾明确指出,今天 RL infra 的主要卡点是 rollout,而不是训练本身。这一点很关键,因为它解释了为什么推理引擎、缓存管理、环境接口和数据回流,会在 RL 时代重新占据系统设计中心。尤其是模型变大、rollout 变长后,传统 RL 框架面对的是和过去完全不同的 Actor。
今天的大模型 RL 和传统 RL 的本质差别
嘉宾拿早年的 MuJoCo / Atari 系统作比较,指出差异主要体现在三点:
- Actor 从几兆参数网络,变成了巨大的 LM / VLM;
- 环境从相对固定的小型 simulator,变成了更动态、更异构的真实工具和服务;
- rollout 不再是廉价 forward,而是一次完整的推理与交互过程。
长 rollout 和大模型把系统压力成倍放大
嘉宾们提到了几个非常具体的挑战:模型更大时如何做 RL、rollout 特别长时如何做 RL、multi-modality 和 Agent workload 如何做 RL。这些问题看似算法问题,实际上都直接映射到系统压力。比如 rollout 变长意味着缓存更久、调度更复杂、失败恢复成本更高;环境更复杂意味着训练框架必须支持更异构的数据流和状态流。
为什么 RL infra 需要训推结合
如果训练框架和推理框架完全割裂,就会出现几个问题:
- rollout 结果回传链路过长;
- 状态管理分散在多个系统中;
- 调试故障时很难定位是在训练、推理还是环境侧;
- 算法侧和系统侧往往会 “大眼瞪小眼”,谁都觉得瓶颈在对方。
Agent RL 把环境构造问题推到台前
传统 RL 常常假设环境已经给定,但在 Agent 任务中,环境本身就是系统设计的一部分。panel 中多次提到 environment construction、workflow construction、real world task、failure handling 等问题,这说明 Agent RL 不只是 “在既有环境中学策略”,而是经常要先把环境搭出来,再让模型去学。
环境如果构造不好,RL 就会学偏
嘉宾提到一个核心痛点:很多系统在单环境里能训练得很好,一旦跨环境就不泛化。也就是说,环境搭建差异、任务结构差异、奖励形式差异都会直接成为泛化问题。这不是简单增加数据量就能抹掉的误差。
本章小结
RL / Agent Infra 的复杂度,来自三个变量同时变化:Actor 变大、rollout 变长、环境变复杂。于是系统设计的重点也从 “把训练跑起来” 转向 “让训练、推理、环境和数据回流形成可复现、可扩展的闭环”。
训练系统正在从单主线框架变成异构调度系统
为什么传统训练框架不再够用
panel 里有一个非常准确的观察:过去两年围绕 pretraining 优化出来的框架,本质上是一个 “过于有主线” 的特例。输入长度、前向结构、数据流向都相对规整,所以系统很容易围绕统一主线优化。但到了 RL、Agent、multi-modal 和 workflow-driven workload,输入输出结构变得更加异构,很多系统假设开始失效。
“今年在做训练系统设计的时候,重点是怎么把 infra 问题模块化抽离出来,同时把推理框架和训练框架联合起来。”
训练系统的新目标不是更单一,而是更模块化
新的设计方向更像这样:
- 让训练框架和推理框架共享更稳定的接口;
- 把 environment、reward、workflow、failure handling 模块化;
- 允许不同 workload 跑在不同硬件和不同精度配置上;
- 让系统先接住异构性,再谈性能榨取。
故障、文件系统和异构硬件成为常态
嘉宾们谈到的很多细节非常 “Infra 味”:文件系统挂载失败怎么办,训练有故障时怎么恢复,不同卡的精度特征和稳定性差异怎么处理,跨 cluster 训练怎么调度。这里释放出的信号很明确,Agent / RL 时代的训练系统不再是理想实验室条件,而是默认在一个会失败、会波动、会异构的世界里运行。
为什么 event-driven 与动态系统会变重要
Agent workflow 不再是单一路径的张量流水线,而是感知环境、调用工具、等待反馈、再决定下一步。这天然更接近 event-driven system,而不是静态 batch training。系统需要处理的不再只是张量,而是异步事件、状态更新和 heterogeneous workflow。
系统和算法必须共同演化
几位嘉宾提到了一个常见场景:算法侧说系统太慢,系统侧说 workload 太不规整。这种张力并不是坏事,反而说明 Agent 时代已经把 “算法创新” 和 “系统支持” 拉到了同一张桌子上。过去可以先做出算法、再交给系统适配;现在很多能力如果没有对应的 Infra,算法甚至无法被可靠验证。
只追求系统性能,或者只追求算法新意,都会失真
如果系统性能很高,但只适配单一 workload,那么一换环境就失效;如果算法思路很新,但系统无法稳定复现,也无法成为社区共识。Infra 专题真正强调的是两者要形成共同的迭代速度。
本章小结
训练系统正在从 “单主线框架” 变成 “异构调度系统”。这一转变背后是 workload 的变化:从规整的 pretraining 转向 event-driven、environment-heavy、failure-prone 的 RL / Agent workload。系统设计的中心,已经从静态性能转向动态可承载性。
2026 展望:训练的不只是模型,而是整个系统
从模型中心走向系统中心
panel 后段有一句非常值得记住的话:未来不只是训练模型,而是在训练一个系统。这里的系统包括模型前后的渲染、推理、工作流、环境构造、数据回流和部署接口。它意味着 “模型” 不再是唯一优化对象,而只是整条链路里最核心、但不是唯一的一环。
2026 年高概率继续扩张的方向
- 推理与训练的结合会继续加深,训推分离会从架构问题变成 workload 问题;
- Agent environment 的构造会成为重要工程能力;
- 多模态、RL 与 Agent workload 会继续推动系统异构化;
- 历史上的分布式系统、数据库与容错经验,会被重新引入大模型 Infra。
Infra 的终局不是隐藏,而是成为默认能力
从 panel 的语气能听出来,嘉宾们并不追求让用户直接感知 Infra,而是希望它最终退到后台,成为系统默认具备的支撑能力。也就是说,当我们讨论 “Agent 产品好不好用” 时,很多真实决定因素其实都藏在 rollout 引擎、缓存策略、调度系统、环境接口和故障恢复里。
| 方向 | 系统目标 | Infra 侧关键问题 |
|---|---|---|
| 推理继续集群化 | 更高吞吐、更低尾延迟 | PD 分离、专家并行、跨节点调度 |
| RL / Agent 规模化 | 更长 rollout、更大环境、更复杂反馈 | 训推结合、environment 接口、reward 回流 |
| 异构训练系统 | 支持更多 workload 与硬件组合 | 模块化抽象、故障恢复、精度管理 |
| 产业落地 | 让模型真正接入应用链路 | 文件系统、权限、workflow、稳定性 |
本章小结
这场 Infra 专题最终落到一个非常明确的判断:大模型系统的下一个阶段,不是单纯堆更多卡,而是让推理、训练、环境和工作流形成一个真正可扩展的整体系统。这也是 Infra 在 Agent 时代重新变成主线的根本原因。
总结与延伸
核心观点总览
| 主题 | panel 结论 | 对应系统问题 |
|---|---|---|
| 推理 Infra | PD 分离、大 EP 已经进入生产主流 | 如何按 workload 重新组织资源? |
| RL Infra | rollout 是核心瓶颈,训推结合越来越重要 | 如何让大模型 RL 可扩展? |
| Agent Infra | 环境、workflow、事件流使系统更动态 | 如何承接真实工具与真实失败? |
| 训练系统 | 从单主线框架走向异构调度系统 | 如何模块化拆出 infra 问题? |
| 未来方向 | 不只是训练模型,而是在训练系统 | 如何让系统和算法共同迭代? |
三条实践导向的 takeaway
- 如果工作负载已经变成 Agent / RL / multi-modal,就不要再用纯 pretraining 的眼光设计系统。
- 真正限制大模型能力上限的,越来越多是 rollout、environment、调度和故障恢复,而不是单一算子速度。
- 基础设施成熟的标志,不是用户感知到它很复杂,而是它能在复杂 workload 下保持稳定、可复现、可扩展。
Infra 专题的真正启发
它提醒我们,大模型时代的 “系统” 不是附属品,而是能力的一部分。很多看起来是算法瓶颈的问题,只有在系统设计、环境构造和部署接口都跟上时,才可能真正被解决。
拓展阅读
- MoonCake、KTransformers、vLLM、SGLang 等推理系统资料
- RL infra 与 rollout engine 相关开源项目和论文
- Agent environment / world model / benchmark 构造方向工作
- 分布式训练、容错恢复、文件系统与数据库在 AI Infra 中的迁移经验
- 关于 heterogeneous workflow 和 event-driven AI systems 的工程实践