[LLM Agents F25] Evolution of System Designs — Yangqing Jia

LaTeX 源码 · 观看视频

字段	内容
作者/整理	基于 Yangqing Jia 授课内容整理
来源	Berkeley RDI
日期	2026-04-02

课程定位：从模型能力竞争转向系统能力竞争

主讲人视角与问题定义

这讲并不是在讲某个单点模型技巧，而是从系统工程历史去解释一个更大的命题：当大模型和 Agent 成为主流工作负载时，整个基础设施设计为什么必须重写。Yangqing Jia 的经历横跨 Google 研究、Caffe/TensorFlow/PyTorch 生态、Lepton AI 创业与被并入 NVIDIA 的工程实践，因此他的观察并非学术抽象，而是来自大规模生产系统中的成本、可靠性与演进压力。

本讲的核心问题

我们今天讨论的不是 “Agent 是不是新概念”，而是 “当 Agent 工作负载进入真实生产环境，哪些系统设计假设会失效，哪些旧原则会回归，哪些新抽象必须补上”。

课程从三个层次递进：

技术浪潮层：MLOps \(\rightarrow\) RAG \(\rightarrow\) Agentic AI 的热度切换与真实留存；
基础设施层：HPC、Cloud、Data Cloud、AI Cloud 的架构约束如何变化；
产业落地层：企业应用、创业机会、边缘部署、成本与价值之间如何权衡。

为什么 “系统设计” 在 Agent 时代更关键

传统 LLM 应用可以停留在 “单轮请求-响应”。Agent 系统则包含任务拆解、状态管理、外部工具调用、长链路执行、失败恢复与审计闭环。模型只是其中一个部件，真正决定能否商用的是系统能否稳定承载这些环节。

常见误区：把 Agent 仅理解为 Prompt 工程升级

如果只在提示词层面做 “更复杂的模板”，没有补齐调度、存储、检索、流控、可观测性与故障恢复，那么系统会在高并发和长任务下快速失稳。很多所谓 “模型不够强” 的问题，实际是系统设计不足导致的。

本章小结

本讲的价值在于把 Agent 讨论从概念热度拉回工程现实：模型能力提升只是起点，系统演进才是规模化落地的决定因素。

第一性原理：从 “神秘 AGI” 到 “可分解系统”

输入法类比：复杂智能可由简单模块组合

Yangqing Jia 在开场强调，外界常把 AGI 描述为神秘黑箱，但工程视角更强调可分解性。他用中文输入法做类比：用户输入拼音后，系统并不是 “一次性神谕输出”，而是经历切分、候选召回、排序、语言模型修正等分层模块，再由交互反馈不断改进体验。

这个类比指向一个关键判断：大模型系统同样可以被拆为相对清晰的子问题。即使底层模型参数巨大，上层产品与基础设施仍然需要可解释的模块边界，否则无法调试、优化与治理。

工程含义：把 “智能” 还原为 “流水线”

输入法并不需要 “理解一切” 才能工作良好，它依赖高质量候选生成与排序。Agent 系统也类似，不必追求单模型包办所有功能，而应优先把召回、规划、执行、验证各阶段做到可控和可观测。

输入法类比映射到 Agent Pipeline

拼音切分 \(\leftrightarrow\) 任务解析（Task Parsing）；
候选字召回 \(\leftrightarrow\) 工具/知识候选检索（Retrieval）；
候选排序 \(\leftrightarrow\) 规划与动作选择（Planning / Policy）；
用户纠错 \(\leftrightarrow\) 在线反馈与后训练闭环（Feedback Loop）。

不要把 “可分解” 误解为 “简单”

可分解并不意味着成本低。相反，模块越多，跨模块协议、数据一致性与故障联动风险越高。工程团队必须在 “模块化收益” 与 “系统复杂度” 之间做严谨权衡。

本章小结

“神秘能力” 在工程上最终要落到 “可分解系统”。这不是降低难度，而是把难点从模型单点，转移到跨模块协同与系统可靠性。

技术浪潮切换：MLOps、RAG 与 Agentic AI

热度演化与真实需求

在约 20 分钟处，讲者通过产业观察指出，MLOps、RAG、Prompt Engineering、Agentic AI 的热度迭代非常快。某些概念在一年内就从 “新范式” 走向 “基础配置”。这并不意味着其失效，而意味着其被吸收进默认工程栈。

关于技术热度迁移与新焦点（Prompt Engineering / Agentic AI）

来源：视频时间：00:20:07–00:20:13。

热度不等于价值，沉淀才等于价值

RAG 的讨论热度下降，不代表 RAG 被淘汰；很多时候是因为它已成为系统默认能力，像数据库或缓存一样被隐式调用。

消费应用与企业应用的分化

讲者把应用分为两类：

Consumer 场景：强调创意、娱乐、生产力，容忍一定不确定性；
Enterprise 场景：强调正确性、稳定性、可追责，容忍错误的空间小得多。

这一区分决定了系统设计重点。消费场景常优先 “体验增益”，企业场景必须先解决 “可信交付”。同一模型在两类场景中，工程栈和治理要求差异极大。

同一模型，不同系统责任边界

在消费产品里，系统更多是 “加速器”；在企业系统里，系统是 “安全阀”。前者可偏向试错，后者必须先构建保守默认、审计日志和回滚机制。

错误迁移：把消费应用策略直接复制到企业场景

许多团队在 PoC 阶段成功后直接推广到企业生产，忽视权限、合规、事实校验和 SLA 约束，最终导致 “演示可行、生产不可用”。

阶段能力对比

阶段	核心能力	主要瓶颈	系统重点
MLOps 阶段	模型训练/部署流水线	实验管理与发布效率	平台化与自动化
RAG 阶段	外部知识接入与问答增强	召回质量与延迟波动	检索链路与缓存策略
Agent 阶段	规划、工具调用、长任务执行	长链路稳定性与可观测性	编排、流控、审计与恢复

从 MLOps 到 Agent 的系统责任扩张

本章小结

浪潮切换的本质不是概念替换，而是能力沉淀与系统责任扩张。Agent 时代把系统设计推到前台。

基础设施谱系：HPC、Cloud、Data Cloud 到 AI Cloud

从科学计算到通用云

讲者回顾了早期 HPC 集群时代：高算力任务（物理、天气等）运行在集中式集群上，强调并行计算能力。随后 VPS 与公有云出现，把硬件运维抽象出去，让开发者以更低门槛部署业务。

公有云成功的抽象前提

机器被视作可替换资源，工作负载多为松耦合服务。只要接口一致，底层物理位置通常不影响业务逻辑。

Web 2.0 到 Data Cloud

随着用户行为数据激增，系统重心从 “托管服务” 走向 “数据分析与推荐”。讲者以 Snowflake 与 Databricks 为代表，指出 Data Cloud 时代核心是大规模数据处理与 SQL/批流计算统一。

从传统云演化到数据云与大规模分析栈

来源：视频时间：00:36:33–00:36:46。

AI Cloud 的新矛盾：IO 与数值计算

进入 LLM 时代后，系统重新面临 “数据移动” 与 “数值计算” 的双重压力。讲者在 37 分钟附近明确提出，基础设施演化可抽象为两条主轴：IO（数据搬运）与 Compute（数值计算）。两者耦合方式决定架构上限。

AI 基础设施的两大主轴：IO 与 Compute

来源：视频时间：00:37:29–00:37:36。

AI Cloud 的工程结论

不是 “算力越大越好”，而是 “算力、通信、存储、调度是否协同”。任何单点拉满都会在链路其他位置形成瓶颈。

盲目复用旧云抽象的风险

把 AI 训练/推理任务完全当作传统微服务调度，常导致跨机通信抖动、数据加载拥塞和任务碎片化，最终表现为算力利用率低与成本失控。

本章小结

AI Cloud 不是传统云的线性升级，而是回到 “计算-通信-数据” 一体化优化问题。系统设计必须从工作负载本身出发。

生产系统中的脆弱点：故障风暴与恢复设计

大型 Chatbot 事故案例

在约 48 分钟，讲者分享了一个真实事故：客户误关闭主模型服务后，系统重启触发请求堆积，首个恢复副本被突发流量打死，随后第二个副本重复失败，形成典型恢复风暴（restart storm）。

大规模服务恢复阶段的流量风暴问题

来源：视频时间：00:48:12–00:49:00。

恢复阶段往往比故障发生阶段更危险

系统失效时损失可见；系统恢复时如果没有流控与预热策略，容易出现 “刚恢复就再次崩溃” 的连锁反应，导致停机时间显著拉长。

15 分钟恢复的关键动作

该案例中团队通过在服务前加流量调节（traffic regulator），限制早期放量速度，让副本逐步预热，最终在约 15 分钟内恢复全链路。这是典型的 “以吞吐爬坡换稳定恢复”。

可迁移的 SRE 经验

冷启动阶段必须有 admission control；
队列长度与并发阈值要联动，不可静态配置；
恢复流程要脚本化，避免临场手工操作放大错误；
关键组件需具备 brownout 模式，先保核心能力再恢复完整能力。

Agent 系统的放大效应

Agent 的请求通常是多步链路，一个环节失控会放大到整条工作流。传统 API 服务可承受的短抖动，在 Agent 系统里可能演化为任务雪崩。

本章小结

生产系统的核心能力不是 “平时跑得快”，而是 “故障时不扩散、恢复时不复发”。Agent 场景下这一要求更高。

硬件与系统共设计：从 OCP 到 DGX

架构回摆：从分散微服务到高密度计算节点

讲者回顾了 Cray-2、OCP 服务器与现代 AI 机箱的演化。传统云强调模块化小节点，利于替换和弹性；AI 训练/推理要求高带宽互联与低通信延迟，又推动架构向高密度节点回摆。

AI 计算节点走向高密度化：DGX 类系统示意

来源：视频时间：00:51:44–00:52:02。

AI 负载下 “模块化” 与 “集成化” 的再平衡

模块化降低运维复杂度；集成化提升互联效率。AI 系统常需要在集成节点内部追求极致带宽，再在节点间做分层调度。

节点形态对软件栈的影响

当单机从 “若干独立 CPU” 变为 “8 GPU + 2 CPU + 高速互联”，软件抽象也会变化：

资源单位不再只是 “CPU 核 + 内存”，而是 “拓扑感知的加速器组”；
调度器需要理解 NVLink / PCIe / NIC 布局；
容器编排需要加入通信亲和性约束。

为什么硬件细节重新进入应用层视野

过去很多应用团队不需要关心机架与交换机拓扑；在大模型任务里，物理拓扑直接影响训练时延、吞吐和成本。系统抽象不能完全屏蔽底层结构。

过度抽象的代价

如果平台把所有异构资源都抽成 “统一 VM”，短期易用性更好，长期会掩盖通信瓶颈与拓扑冲突，导致成本优化空间被锁死。

本章小结

AI 基础设施正在经历 “硬件-软件共设计” 回归。高密度节点、拓扑感知调度和分层抽象将成为主流设计方向。

RAG 与 Agent 的关系：不是替代，而是内化

RAG “降温” 的真实含义

在问答环节，讲者回应了 “RAG 是否过时”：RAG 仍然关键，只是被更深地内嵌到产品栈中。用户不再显式讨论它，就像很少有人讨论数据库，但所有系统都在用数据库。

问答环节：RAG 由显式卖点转为隐式基础能力

来源：视频时间：01:05:35–01:06:00。

RAG 的地位变化：从产品功能到系统部件

在 Agent 系统里，检索能力常与工具调用、记忆机制、任务规划融合，形成 “检索-推理-执行” 的联合闭环，而非单一检索模块。

分阶段排序：成本与准确率的联合优化

讲者使用推荐系统经验类比 RAG/检索流程：先用便宜模型做粗排，再用更强模型做精排。这个分层策略本质是 “成本优先缩小候选集，再对高价值候选投入高精度算力”。

两阶段检索-重排策略

第一阶段：关键词、向量、规则过滤，目标是召回率与成本可控；
第二阶段：LLM 重排与上下文推理，目标是答案准确率与解释质量。

幻觉问题的边界：常识与事实的分界线

讲者讨论了 “模型记忆事实” 与 “上下文提供事实” 的边界模糊性。常识和事实知识并非总能清晰切开，这也是幻觉长期难解的重要原因。

企业场景必须把事实来源显式化

在企业系统中，答案质量不能依赖隐性记忆。需要可追踪数据源、版本化检索索引、可复现实验与可解释引用链路，才能把幻觉风险降到可管理范围。

本章小结

RAG 没有过时，而是成熟并内化。Agent 时代的关键不是 “是否使用 RAG”，而是 “如何把检索、推理、执行放入同一可治理管线”。

AI 云调度难题：拓扑、数据与抽象层冲突

局部性约束重新变成一等公民

在 1:09 左右，讲者指出 AI 训练任务对物理邻近性高度敏感。请求四台机器时，最好位于同机架并挂在同一交换机上，否则通信代价会吞噬算力收益。

分布式训练中的机架/交换机局部性约束

来源：视频时间：01:09:40–01:09:53。

旧云抽象与新负载矛盾

传统云强调资源可替换与位置无关；AI 训练强调位置相关和链路稳定。两者目标不一致，导致通用抽象在 AI 场景下出现性能与成本折损。

数据面复杂度：不只是 “装个框架”

讲者提到，安装 PyTorch 很快，但把 PB 级数据接入目标存储与训练作业才是长期瓶颈。不同环境（对象存储、块存储、并行文件系统）在吞吐、延迟与一致性上差异巨大，数据管线设计成为系统成败关键。

数据面工程的三个核心动作

数据布局：冷热分层、分片策略、预取窗口；
数据通路：对象存储到训练节点的高效拉取与缓存；
数据治理：版本、血缘、质量校验与回放能力。

层面	传统云默认假设	AI 训练现实	改造方向
调度	位置无关，可替换 VM	位置相关，拓扑敏感	拓扑感知调度器
存储	统一接口即可	多存储栈性能差异显著	分层数据管线
网络	服务间 RPC 为主	AllReduce / 参数同步密集	高带宽低抖动网络
运维	微服务弹性扩缩容	训练作业长时、失败代价高	作业级容错与恢复

AI 负载下 “抽象便利性” 与 “物理现实” 的矛盾

平台团队常见低估：忽略数据搬运成本

很多团队在成本估算时只看 GPU 单价，忽略数据准备、跨区传输、存储读放大和作业重试成本，导致总成本明显高于预期。

本章小结

AI 系统设计正在从 “计算资源管理” 扩展为 “计算+数据+拓扑” 协同优化问题。调度与数据面能力将决定平台竞争力。

创业与产业判断：价值优先、垂直突破、效率回归

创业切入点：基础模型之外的价值密度

在 Q&A 中，讲者强调从零训练新基础模型仍有空间，但门槛极高，需要资本、人才与算力协同。更现实且机会更大的方向，是结合行业知识在企业场景做垂直化产品，把通用模型能力转化为可交付价值。

创业建议（工程视角）

把资源集中在 “高价值垂直问题”，而不是盲目复制通用模型路线。差异化来自行业数据、流程重构与系统集成深度。

中心化与边缘化的动态平衡

讲者提出一个值得长期追踪的张力：一方面，大规模中心化集群持续推动上限；另一方面，机器人、手机端智能、CDN/电信边缘节点推动高效模型和分布式推理需求。

边缘 AI 与分布式推理的产业方向

来源：视频时间：01:16:26–01:16:41。

探索（Exploration）与利用（Exploitation）

探索：追求更强模型上限，可容忍更高成本；
利用：追求可部署效率，强调延迟、功耗与单位成本；
工业系统通常需要两条路线并行，不存在单一最优策略。

价值创造与风险边界

讲者对产业持审慎乐观态度：只要系统持续创造用户价值，成本曲线可以被工程优化逐步消化。但若缺乏真实价值，系统最终会成为 “成本驱动的纸牌屋”。

价值缺失是最大结构性风险

如果产品无法在搜索、编码、生产力或企业流程中形成稳定增益，任何技术叙事都难以持续。系统设计的终点必须回到业务价值闭环。

本章小结

未来几年会同时出现 “超大中心集群” 与 “高效边缘推理” 两条路线。创业公司更适合在垂直场景中把通用能力转化为可量化价值。

工程落地清单：面向 Agent 系统的设计原则

从课程内容抽象出的十条实践原则

为了把讲者的系统观点转化为团队可执行方法，本节整理出面向 Agent 平台建设的十条工程原则：

把任务链路拆成可观测模块，避免黑箱联动；
先定义恢复策略，再上线高并发流量；
在系统设计早期就引入拓扑感知调度；
数据面设计与算力规划同步推进；
检索与重排要分层，先控成本再控准确；
企业场景必须做事实来源追踪；
把 SLA 与成本指标纳入同一优化目标；
把 “模型升级” 与 “系统升级” 解耦；
为边缘部署预留轻量模型路径；
持续做演练：故障恢复、流量峰值、链路退化。

行动建议

若团队资源有限，应优先补 “可观测性 + 恢复能力 + 数据管线” 三件事。这三者是把实验系统推向生产系统的最短路径。

评估框架

维度	评估问题	观测指标	常见改进手段
可靠性	故障后多久恢复？是否二次崩溃？	MTTR、错误峰值、重试风暴次数	流控、预热、分级降级
成本效率	单任务成本是否可预测？	Token 成本、GPU 利用率、单位任务毛利	分阶段推理、缓存、模型路由
数据质量	检索事实是否可追溯？	引用覆盖率、事实冲突率	数据版本化、检索评测
可扩展性	高并发下是否退化平滑？	P95/P99 延迟、队列积压长度	并发控制、弹性策略
部署灵活性	能否同时支持云端与边缘？	端侧延迟、功耗、模型体积	蒸馏、量化、异构调度

为什么评估框架必须 “系统化”

Agent 质量不是单指标问题。只看准确率会忽略稳定性与成本，只看成本会牺牲可靠性。系统化评估能减少局部最优导致的整体失效。

本章小结

课程中的方法论可以直接转化为工程清单：先建立系统能力，再追求模型能力红利，才能实现可持续迭代。

案例推演：企业级 Agent 平台的分阶段建设路线

阶段 0：先做 “可控的最小系统”

很多团队上来就尝试多 Agent、复杂工具编排和自动化闭环，结果在第一周就被日志噪声、链路超时和错误重试拖垮。更务实的路径是先构建一个可控最小系统（Minimum Controllable System）：

单 Agent + 单业务域 + 可回放日志；
检索源有限且可标注；
失败默认安全（fail-safe）而不是强行继续执行。

最小系统的目标不是 “能力上限”，而是 “行为确定性”

只有当系统在固定输入下能稳定复现，后续优化才有意义。否则每次改动都无法判断收益来自模型提升还是偶然波动。

阶段 1：把检索与执行解耦

课程里强调 RAG 与 Agent 并非替代关系。在工程实现上，建议把 “知识检索” 与 “动作执行” 解耦为两个独立层：

检索层负责召回候选事实与证据；
决策层负责选择工具与下一步动作；
执行层负责副作用操作并返回结构化结果。

解耦后的直接收益是：可以分别评估召回质量、规划质量和执行成功率，避免把所有问题都归因给 “模型幻觉”。这也更符合讲者提出的系统化思路。

推荐的最小观测指标

检索召回率（Top-k Evidence Recall）；
规划一致性（同问题多次执行的动作序列偏差）；
工具成功率（成功调用比例与平均重试次数）；
端到端任务成功率（按业务验收标准定义）。

阶段 2：引入流控与恢复策略

在 48 分钟案例里，系统恢复失败本质是 “恢复流量 > 服务恢复速度”。因此平台第二阶段的关键不是再堆功能，而是把流控和恢复设计前置。一个可执行的方案是：

对每类任务设定并发预算（concurrency budget）；
对模型服务设定暖启动窗口（warm-up window）；
对下游工具调用设定熔断阈值（circuit breaker）；
对任务状态设定幂等恢复点（idempotent checkpoint）。

没有恢复策略的自动化等于放大器

自动化链路会把单次错误放大到批量错误。对于企业场景， “先恢复、再优化” 比 “先加功能、再救火” 的总成本更低。

阶段 3：治理与合规上线

当系统进入企业生产后，关注点会从 “能不能做” 转向 “能不能长期可控地做”。这要求引入治理层：

权限与审计：谁触发了什么动作，证据链是否完整；
数据边界：私有数据是否跨域泄漏；
合规约束：是否满足行业监管与留痕要求；
运营指标：成本、成功率、时延是否可持续。

建设阶段	核心目标	必须交付物	退出条件
阶段 0	行为可复现	结构化日志、回放脚本、基线任务集	同输入结果稳定且可解释
阶段 1	模块可诊断	检索/规划/执行分层指标面板	能定位性能与质量瓶颈来源
阶段 2	故障可恢复	流控、熔断、幂等恢复点	峰值下无级联崩溃
阶段 3	生产可治理	权限审计、数据边界、合规报告	满足业务与监管上线标准

企业级 Agent 平台从 PoC 到生产的四阶段路线图

本章小结

平台建设应该遵循 “可控性先于复杂度” 的路径。先把复现、诊断、恢复、治理补齐，再追求更高自动化水平，才能把 Agent 变成长期可运营能力。

术语与指标附录：把系统讨论落到可执行口径

关键术语对照

为避免跨团队沟通歧义，这里把课程中涉及的核心概念统一为工程口径：

术语	课程语境	工程落地定义
Agentic AI	模型具备多步执行与工具调用能力	具状态、可规划、可执行、可恢复的任务系统
RAG	外部知识增强生成	可追溯检索+证据注入+答案生成管线
Data Locality	数据与算力的空间邻近性	任务调度时的数据/网络拓扑约束
Exploration	冲刺模型能力上限	容忍高成本的试验型研发阶段
Exploitation	追求部署效率与收益	以单位成本和稳定性为主导的生产阶段

课程高频术语的工程化定义

建议的周报指标模板

如果团队已经在做 Agent 平台迭代，推荐每周至少跟踪以下指标，并按 “质量、效率、稳定性” 三类汇报： | 指标类别 | 指标 | 建议频率 | 目标趋势 | | --- | --- | --- | --- | | 质量 | 任务成功率、事实一致率、误操作率 | 日/周 | 成功率上升，误操作下降 | | 效率 | 平均成本/任务、GPU 利用率、缓存命中率 | 日/周 | 成本下降，利用率上升 | | 稳定性 | P95 延迟、错误峰值、MTTR | 日/周 | 尾延迟与 MTTR 下降 | | 治理 | 可审计覆盖率、权限违规次数 | 周/月 | 审计覆盖率上升，违规归零 |

为什么要把指标写进笔记

课程知识只有转化为团队的例行观测和决策机制，才会变成真实能力。指标模板的作用是让 “系统设计” 进入持续迭代闭环，而不是停留在一次性讨论。

本章小结

统一术语和指标口径，是跨研究、平台、产品团队协作的最低成本手段。它直接决定系统优化是否可持续、可复盘、可扩展。

总结与延伸

全讲核心结论

主题	关键结论	对实践的直接影响
系统演进主线	AI 工作负载迫使基础设施重写	需要拓扑感知调度与数据面重构
浪潮切换	RAG 等能力从显式热点走向隐式基础设施	重点从概念竞争转向系统集成能力
生产可靠性	故障恢复阶段最容易触发级联崩溃	必须建设流控、预热、降级、演练机制
硬件软件关系	高密度节点与高带宽互联成为主流	平台抽象需暴露关键物理约束
创业机会	垂直企业场景仍有大量未解问题	结合行业知识做高价值差异化交付
未来方向	中心化大模型与边缘高效推理并存	双路线并行：上限探索 + 效率利用

Lecture 10 的系统设计结论与工程含义

一句话总结

Agent 时代的竞争，不再只是 “谁的模型更强”，而是 “谁能把模型能力稳定、低成本、可治理地变成真实系统能力”。

进一步阅读

Berkeley RDI Agentic AI MOOC F25 其余讲次（安全、评测、多智能体、生产部署）。
Snowflake 与 Databricks 的 Data Cloud 架构公开资料。
NVIDIA DGX 平台与大规模训练系统工程文档。
云原生与 AI 基础设施融合实践（Kubernetes, Slurm, Ray, SkyPilot 等）。
企业级 RAG/Agent 评测方法（事实性、可追溯性、成本与时延联合评估）。