[LLM Agents F24] AI Agents for Enterprise Workflows — Nicolas Chapados & Alexandre Lacoste

LaTeX 源码 · 观看视频

字段	内容
作者/整理	基于公开课程资料整理
来源	Berkeley RDI
日期	2024年10月21日

引言：企业 Agent 的使命

Berkeley LLM Agents F24 第六讲由 ServiceNow 的 Nicolas Chapados 和 Alexandre Lacoste 共同主持。两位演讲者在开场就强调，ServiceNow 是一个 25,000+ 员工的全球企业，工作流（workflow）是它的核心产品。Agent 的价值不仅在于模型能力，而在于“在员工的实际工作背景下交付结果”，这点在 00:01:11--00:01:37 的片段中反复被提及。

企业 Agent 不能“脱离上下文”

ServiceNow 的平台连接了 ITSM、HR、客户服务等多个垂类，任何 Agent 都必须先清楚“这是谁”、“他当前在做什么”、“希望 Agent 提供哪些帮助”再做设计，才能满足审计与安全要求。

本章小结

企业级 Agent 先有需求再有模型，重视用户角色与工作流背景是落地的第一课。

从 John 到 Sandy：工作流中的每一步

一次普通的故障单：人工流程的长链

在 00:02:11--00:11:21 的故事里，John 因为早晨咖啡洒在笔记本上，向 IT 提单请求补发设备；该工单分配给 Sandy，Sandy 逐条查阅知识库、历史事件，再调整权限并写清记录。即便最新的生成式 AI 已经部署，Sandy 依然执行大量手工步骤，包括核对访问控制、召唤相关系统、写解决方案摘要。

自动化的“多米诺骨牌”缺口

即便有 AI 摘要，企业工作流中仍有数百种场景需要人工判断、权限核查、合规判断与多系统协调，任何自动化都需要在此过程中保持可追溯与人工干预的余地。

低频但关键的“沙粒任务”

讲者指出，大多数“低价值、低频”任务都由于过于独特而传统脚本难以覆盖，这些“沙粒任务”每天在全球企业中重复百万次，但每一次都需要快速响应。

Agent 的覆盖面不该只看“高频”

Agent 应该抓住“可解释、可追溯、可细粒度调整”的机会：即使单次任务耗时短，但在 aggregate 级别掀起的效率提升和员工满意度才是关键。

本章小结

John/Sandy 的例子展现了 Agent 在多系统、多角色、多步骤场景中的潜在价值与风险点，为后文的架构和审计需求埋下伏笔。

API 与 Web Agent 的角色边界

API Agent：明确规范即可自动化

在 00:08:35--00:09:35 的段落中，讲者把 API Agent 描述为“具名 API 或端点的集合，主要交换文本信息”，其工具集可用公式化规格精确描述，适用于已有服务接口的流程。

API Agent 的核心收益

当工具集、输入/输出格式明确且可校验时，API Agents 可以保持“高精度、可预测”的执行，同时保持 prompt-engineering 可复现。

Web Agent：需要感知与 UI 推理

Web Agents 被描述为“像人一样在浏览器中点击、填写表单、跨页面导航”，但同时承担理解目标、现场感知与长时规划的负担（00:32:49--00:34:14）。

Web Agent 的三重挑战

它要理解用户意图、识别当前 UI、还要规划到达最终结果；但终点往往不在当前页面，单凭当前观察无法判定是否已完成，执行错误会导致重复操作或流程中断。

本章小结

API 与 Web Agents 并非互斥，而是互补：前者靠规范保证稳定，后者靠感知实现通用，设计时需要根据目标任务合理组合。

TapeAgents：可审计的执行轨迹

Chapados 在 00:18:56--00:20:52 介绍 TapeAgents，这是一个刚刚开源的框架，目标是“在工程工具和优化工具之间搭建桥梁”。“Tape”是统一的抽象——所有 Agent 的思考、行动、观测都写进这条日志，既可审计，也可被后续 Agent 读取。

TapeAgents 的“Best of Both Worlds”

“我们想要开发/调试工具，又想要具备 prompt 优化与 fine-tuning 的能力”；TapeAgents 提供细粒度组件、并行流、runtime orchestration，同时以 tape 作为数据资产，将执行日志转化为优化材料。

Tape 的结构与可重用性

TapeAgents 里的 tape 不是纯粹的日志，它带有丰富的结构化 metadata，可以被其他 Agent 或优化器消费（00:21:10--00:22:25）。多个 Agent 可以共享同一 tape，Agent B 读取全历史并选择想要执行的 node，从而构建模块化的控制流。

Tape 作为“数据即服务”

Tape 把每一次 prompt、每一次环境反馈、行动指令都记录下来，进而可以驱动调试、可视化、prompt 优化、教师-学生蒸馏，形成一条从 execution trace 到 fine-tune 数据的闭环。

本章小结

TapeAgents 借助丰富 metadata 的统一 tape，实现了多 Agent 协作、工程级调试与自动化优化的协同，解决了“人工 prompt + 实验优化”之间的脱节。

优化与 GRATE：从大模到精简模型

两 Agent + 质量指标的训练流水线

在 00:24:31--00:31:15 的案例中，ServiceNow 先用参数量达 405B 的 Llama 3.5 大模型打造高质量交互，再将 tape 记录用作数据，微调参数仅 8B 的 Llama 模型以恢复性能。结果是：微调模型的 GRATE 分数与原始大模型等价，却在运行成本上实现 300x+ 的节省。

GRATE 质量得分

GRATE 是一套可量化的质量属性（grounded、responsive、accurate、transparent、effective），每一维度都可独立测量与优化，方便将 tape 作为训练时的 reward/regression signal。

成本-性能权衡

指标图在 00:30:25--00:31:38 显示：x 轴代表每百万轮对话的成本，y 轴代表 GRATE 得分；大型模型仍在右上角，但通过 tape 生成的微调模型可以跑出接近的质量却只需千分之一的费用。

本章小结

TapeAgents 不仅便于工程化开发，也让我们可以把昂贵的“老师级” Agent 转化为高质量且低成本的“学生 Agent”，成本/效果曲线可以通过 GRATE 可视化。

Web Agent 实操与挑战

用 Web Agent 规划 GTC 之旅

在 00:15:41--00:16:39 的演示中，Agent 先问用户“我想去 GTC 2024”，再依次访问 Google、Google Maps，最终找出 San Jose Convention Center——再交由浏览器执行表单与路线导航。该片段展示了 Web Agent 可以在无 API 的场景下依靠页面交互完成任务，也说明它需要不断询问人类、动态 replanning。 \footnote{该片段对应的视频时间：00:15:41--00:16:39。}

Web Agent 的人机协作边界

在拿不到 API 的场景下，Web Agent 多靠视觉感知与人类指令循环：它要从浏览器抓取 DOM/文本、再做推理、再执行点击/输入，期间向人类请求补充信息或确认，这就是“方式即能力”的体现。

长期规划与观察局限

Web Agent 的终点往往不在当前页面，因此它必须保持一条内部策略，以免多次点击后才发现走错。除此之外，SRT 00:33:54--00:34:14 指出，即便 Agent 拟定计划，也必须保证执行动作的准确性，否则容易重复环节。

Planning/Execution 分离的风险

Web Agent 可能计划得很漂亮，但因为界面变化、按钮文字略有不同、或需要多级验证而失败；此时必须把错误反馈入 tape，让后续的节点学会更鲁棒的执行方式。

本章小结

Web Agent 是“人在 loop”与“Agent 在 loop”共同作用的结果，UI 语义、长期规划与动作执行精度都需要系统化的机制来保障。

治理与部署注意事项

在 00:03:48--00:04:02 的环节里，讲者强调了信任、治理、安全的重要性，这些都是让 AI Agent 能在企业环境中被授权的前提。TapeAgents 的 tape 本身也构成了可审计的数据链路，为合规、调试、回滚提供依据。

合规不是“文档”而是“流程”

部署 Agent 需要明确“谁批准”、“谁可以修改 prompt”、“谁接收执行摘要”，否则即使模型表现良好，也可能因为治理链缺失而被安全团队下线。

本章小结

Agent 必须与企业治理体系对齐，TapeAgents 的数据链路有助于把执行流程透明化、便于审计与追责。

总结与延伸

维度	要点
场景拼图	ServiceNow 通过 John/Sandy 的故事揭示了低频但关键的工单自动化机会。
架构路径	API Agent 用规范工具集，Web Agent 用浏览器操作，二者需要互补。
TapeAgents	Tape 是结构化日志，可供调试、优化与蒸馏，解决 prompt 与模型研发割裂。
优化回路	用大模型示范、用 tape 产出数据微调小模型，使得 GRATE 质量可视化、成本可控。
治理要求	全链路 audit、合规审批、prompt/执行摘要必须可查。

拓展阅读

TapeAgents 官方技术报告与 GitHub 资源（讲者在 00:19:05 处明确提供 QR 码与链接）。\newline
WorkArena/BrowserGym 原始论文：为企业级 Web Agent 提供了标准化评估与 benchmark。
ServiceNow 的“Enterprise Workflow Platform”介绍，帮助理解多系统协作与治理的标准做法。