跳转至

[LLM Agents F24] AI Agents for Enterprise Workflows — Nicolas Chapados & Alexandre Lacoste

LaTeX 源码 · 备用 PDF · 观看视频

字段 内容
作者/整理 基于公开课程资料整理
来源 Berkeley RDI
日期 2024年10月21日

[LLM Agents F24] AI Agents for Enterprise Workflows — Nicolas Chapados & Alexandre Lacoste

引言:企业 Agent 的使命

Berkeley LLM Agents F24 第六讲由 ServiceNow 的 Nicolas Chapados 和 Alexandre Lacoste 共同主持。两位演讲者在开场就强调,ServiceNow 是一个 25,000+ 员工的全球企业,工作流(workflow)是它的核心产品。Agent 的价值不仅在于模型能力,而在于“在员工的实际工作背景下交付结果”,这点在 00:01:11--00:01:37 的片段中反复被提及。

企业 Agent 不能“脱离上下文”

ServiceNow 的平台连接了 ITSM、HR、客户服务等多个垂类,任何 Agent 都必须先清楚“这是谁”、“他当前在做什么”、“希望 Agent 提供哪些帮助”再做设计,才能满足审计与安全要求。

本章小结

企业级 Agent 先有需求再有模型,重视用户角色与工作流背景是落地的第一课。

从 John 到 Sandy:工作流中的每一步

一次普通的故障单:人工流程的长链

在 00:02:11--00:11:21 的故事里,John 因为早晨咖啡洒在笔记本上,向 IT 提单请求补发设备;该工单分配给 Sandy,Sandy 逐条查阅知识库、历史事件,再调整权限并写清记录。即便最新的生成式 AI 已经部署,Sandy 依然执行大量手工步骤,包括核对访问控制、召唤相关系统、写解决方案摘要。

自动化的“多米诺骨牌”缺口

即便有 AI 摘要,企业工作流中仍有数百种场景需要人工判断、权限核查、合规判断与多系统协调,任何自动化都需要在此过程中保持可追溯与人工干预的余地。

低频但关键的“沙粒任务”

讲者指出,大多数“低价值、低频”任务都由于过于独特而传统脚本难以覆盖,这些“沙粒任务”每天在全球企业中重复百万次,但每一次都需要快速响应。

Agent 的覆盖面不该只看“高频”

Agent 应该抓住“可解释、可追溯、可细粒度调整”的机会:即使单次任务耗时短,但在 aggregate 级别掀起的效率提升和员工满意度才是关键。

本章小结

John/Sandy 的例子展现了 Agent 在多系统、多角色、多步骤场景中的潜在价值与风险点,为后文的架构和审计需求埋下伏笔。

API 与 Web Agent 的角色边界

API Agent:明确规范即可自动化

在 00:08:35--00:09:35 的段落中,讲者把 API Agent 描述为“具名 API 或端点的集合,主要交换文本信息”,其工具集可用公式化规格精确描述,适用于已有服务接口的流程。

API Agent 的核心收益

当工具集、输入/输出格式明确且可校验时,API Agents 可以保持“高精度、可预测”的执行,同时保持 prompt-engineering 可复现。

Web Agent:需要感知与 UI 推理

Web Agents 被描述为“像人一样在浏览器中点击、填写表单、跨页面导航”,但同时承担理解目标、现场感知与长时规划的负担(00:32:49--00:34:14)。

Web Agent 的三重挑战

它要理解用户意图、识别当前 UI、还要规划到达最终结果;但终点往往不在当前页面,单凭当前观察无法判定是否已完成,执行错误会导致重复操作或流程中断。

本章小结

API 与 Web Agents 并非互斥,而是互补:前者靠规范保证稳定,后者靠感知实现通用,设计时需要根据目标任务合理组合。

TapeAgents:可审计的执行轨迹

Chapados 在 00:18:56--00:20:52 介绍 TapeAgents,这是一个刚刚开源的框架,目标是“在工程工具和优化工具之间搭建桥梁”。“Tape”是统一的抽象——所有 Agent 的思考、行动、观测都写进这条日志,既可审计,也可被后续 Agent 读取。

TapeAgents 的“Best of Both Worlds”

“我们想要开发/调试工具,又想要具备 prompt 优化与 fine-tuning 的能力”;TapeAgents 提供细粒度组件、并行流、runtime orchestration,同时以 tape 作为数据资产,将执行日志转化为优化材料。

Tape 的结构与可重用性

TapeAgents 里的 tape 不是纯粹的日志,它带有丰富的结构化 metadata,可以被其他 Agent 或优化器消费(00:21:10--00:22:25)。多个 Agent 可以共享同一 tape,Agent B 读取全历史并选择想要执行的 node,从而构建模块化的控制流。

Tape 作为“数据即服务”

Tape 把每一次 prompt、每一次环境反馈、行动指令都记录下来,进而可以驱动调试、可视化、prompt 优化、教师-学生蒸馏,形成一条从 execution trace 到 fine-tune 数据的闭环。

本章小结

TapeAgents 借助丰富 metadata 的统一 tape,实现了多 Agent 协作、工程级调试与自动化优化的协同,解决了“人工 prompt + 实验优化”之间的脱节。

优化与 GRATE:从大模到精简模型

两 Agent + 质量指标的训练流水线

在 00:24:31--00:31:15 的案例中,ServiceNow 先用参数量达 405B 的 Llama 3.5 大模型打造高质量交互,再将 tape 记录用作数据,微调参数仅 8B 的 Llama 模型以恢复性能。结果是:微调模型的 GRATE 分数与原始大模型等价,却在运行成本上实现 300x+ 的节省。

GRATE 质量得分

GRATE 是一套可量化的质量属性(grounded、responsive、accurate、transparent、effective),每一维度都可独立测量与优化,方便将 tape 作为训练时的 reward/regression signal。

成本-性能权衡

指标图在 00:30:25--00:31:38 显示:x 轴代表每百万轮对话的成本,y 轴代表 GRATE 得分;大型模型仍在右上角,但通过 tape 生成的微调模型可以跑出接近的质量却只需千分之一的费用。

本章小结

TapeAgents 不仅便于工程化开发,也让我们可以把昂贵的“老师级” Agent 转化为高质量且低成本的“学生 Agent”,成本/效果曲线可以通过 GRATE 可视化。

Web Agent 实操与挑战

用 Web Agent 规划 GTC 之旅

在 00:15:41--00:16:39 的演示中,Agent 先问用户“我想去 GTC 2024”,再依次访问 Google、Google Maps,最终找出 San Jose Convention Center——再交由浏览器执行表单与路线导航。该片段展示了 Web Agent 可以在无 API 的场景下依靠页面交互完成任务,也说明它需要不断询问人类、动态 replanning。 \footnote{该片段对应的视频时间:00:15:41--00:16:39。}

Web Agent 的人机协作边界

在拿不到 API 的场景下,Web Agent 多靠视觉感知与人类指令循环:它要从浏览器抓取 DOM/文本、再做推理、再执行点击/输入,期间向人类请求补充信息或确认,这就是“方式即能力”的体现。

长期规划与观察局限

Web Agent 的终点往往不在当前页面,因此它必须保持一条内部策略,以免多次点击后才发现走错。除此之外,SRT 00:33:54--00:34:14 指出,即便 Agent 拟定计划,也必须保证执行动作的准确性,否则容易重复环节。

Planning/Execution 分离的风险

Web Agent 可能计划得很漂亮,但因为界面变化、按钮文字略有不同、或需要多级验证而失败;此时必须把错误反馈入 tape,让后续的节点学会更鲁棒的执行方式。

本章小结

Web Agent 是“人在 loop”与“Agent 在 loop”共同作用的结果,UI 语义、长期规划与动作执行精度都需要系统化的机制来保障。

治理与部署注意事项

在 00:03:48--00:04:02 的环节里,讲者强调了信任、治理、安全的重要性,这些都是让 AI Agent 能在企业环境中被授权的前提。TapeAgents 的 tape 本身也构成了可审计的数据链路,为合规、调试、回滚提供依据。

合规不是“文档”而是“流程”

部署 Agent 需要明确“谁批准”、“谁可以修改 prompt”、“谁接收执行摘要”,否则即使模型表现良好,也可能因为治理链缺失而被安全团队下线。

本章小结

Agent 必须与企业治理体系对齐,TapeAgents 的数据链路有助于把执行流程透明化、便于审计与追责。

总结与延伸

维度 要点
场景拼图 ServiceNow 通过 John/Sandy 的故事揭示了低频但关键的工单自动化机会。
架构路径 API Agent 用规范工具集,Web Agent 用浏览器操作,二者需要互补。
TapeAgents Tape 是结构化日志,可供调试、优化与蒸馏,解决 prompt 与模型研发割裂。
优化回路 用大模型示范、用 tape 产出数据微调小模型,使得 GRATE 质量可视化、成本可控。
治理要求 全链路 audit、合规审批、prompt/执行摘要必须可查。

拓展阅读

  • TapeAgents 官方技术报告与 GitHub 资源(讲者在 00:19:05 处明确提供 QR 码与链接)。\newline
  • WorkArena/BrowserGym 原始论文:为企业级 Web Agent 提供了标准化评估与 benchmark。
  • ServiceNow 的“Enterprise Workflow Platform”介绍,帮助理解多系统协作与治理的标准做法。