[LLM Agents F24] Course Introduction — Dawn Song & Xinyun Chen

LaTeX 源码 · 观看视频

字段	内容
作者/整理	基于公开课程资料整理
来源	Berkeley RDI
日期	2024年9月9日

课程导论：这门课在讲什么

这节课是 Berkeley “Large Language Model Agents” 的开场导论，由 Dawn Song 介绍课程定位、教学团队和学习目标。她把 Agent 放在 LLM 快速进化的大背景下讨论：语言模型已经足够强，但若想解决真实任务，就必须让模型与环境、工具、记忆和反馈形成闭环。

PDF 图示资源

课程教学团队与协作角色。导论首先明确师资、助教和课程支持资源。

打开 PDF 图示

这门课的出发点

课程并不把 Agent 视为单次 prompt 的技巧集合，而是把它定义为一个完整系统：LLM 负责推理与规划，外部模块负责工具使用、记忆、检索和环境交互。只有把这些能力串起来，LLM 才能从“回答问题”转向“完成任务”。

大模型为什么自然走向 Agent

导论指出，近两年 LLM 的能力提升极快，但纯文本输入到纯文本输出的模式很快触到了上限。真实世界任务通常不是一次性问答，而是需要：

与环境交互，读取页面、文件、数据库或设备状态；
保留任务上下文和长期记忆；
在失败后重试、调整计划，并从反馈中修正行为；
调用外部工具弥补模型在计算、检索和执行上的短板。

从 LLM 到 Agent 的关键跳变

一旦模型拥有了记忆、工具使用、检索和反馈回路，它的行为单位就不再是“回答一句话”，而是“在多步交互中推进任务”。这也是 Agent 研究和普通 chatbot 应用的根本分界线。

本章小结

课程导论先把问题讲清楚了：Agent 不是给 LLM 再包一层 UI，而是把模型放进一个能持续观察、规划、行动和修正的执行框架中。

什么是 LLM Agent

Agent 的系统组成

PDF 图示资源

课程用 Memory、Tool Use、Retrieval、Reasoning/Planning 和 Environment Feedback 概括 Agent 的标准组件。

打开 PDF 图示

课程给出的图景很清晰：Agent 的中心仍是 LLM，但 LLM 不再孤立运行，而是通过多个接口与外部系统耦合。

Memory：保存任务上下文、用户偏好、历史轨迹，避免每轮对话都从零开始。
Tool use：让模型调用搜索、代码执行、API、数据库或浏览器操作。
Retrieval：从文档和知识库中拉取外部证据，避免全靠参数记忆硬答。
Reasoning & Planning：把复杂目标拆成若干步骤，而不是直接给出单轮输出。
Feedback / Environment：让 Agent 根据执行结果回看自己，形成 trial-and-error 的闭环。

为什么要保留这些模块边界

如果把记忆、检索、工具调用和规划全都塞回一个超长 prompt，系统将很难观测、调试和优化。Agent 框架的重要价值就在于把这些能力显式拆开，使每个组件都可以被替换、约束和评估。

Agent 活跃的环境类型

PDF 图示资源

LLM Agent 不只存在于聊天界面，还可以进入网页、软件开发、企业工作流和机器人等多种环境。

打开 PDF 图示

课程特别强调 Agent 的环境多样性。它既可以工作在数字环境中，例如 IDE、浏览器、工作流平台，也可以延伸到具身环境，如机器人和多模态感知任务。环境越开放，Agent 越需要：

在不完整信息下做局部决策；
从失败中恢复，而不是一次错误直接终止；
同时协调符号操作、自然语言交互和外部动作。

本章小结

LLM Agent 的定义不是“会调用工具的 LLM”这么简单，而是一个由模型、外部能力和反馈回路构成的任务执行系统。

为什么要研究 Agent Framework

从单 Agent 到多 Agent 协作

PDF 图示资源

导论把多 Agent 协作描述为复杂任务中的“分工机制”，不同模块负责不同子任务。

打开 PDF 图示

当任务跨度足够长、子任务差异足够大时，单个 Agent 往往会在上下文拥挤、职责混杂和推理漂移中失效。课程因此把多 Agent 协作列为核心主题之一：

专门的 planner 负责任务拆解；
specialized executor 负责代码、检索、表格分析等局部操作；
verifier / reviewer 负责检查事实性、一致性和安全性。

Framework 的真正价值

Agent framework 的价值不在于多套 API，而在于它为复杂任务提供了稳定的组织方式：如何拆分模块、如何传递上下文、如何让多个角色协作、如何把失败恢复写进执行流程。

应用机会与评测压力

PDF 图示资源

课程把代码生成、工作流自动化、个人助手和机器人并列展示，说明 Agent 的应用边界正在快速扩张。

打开 PDF 图示

PDF 图示资源

GAIA、WebArena、SWE-Bench 等基准构成了 Agent 研究的早期评测坐标。

打开 PDF 图示

课程一开始就把应用和 benchmark 放在一起，是因为 Agent 系统很容易做出 demo，却很难稳定上线。导论中列出的挑战包括：

复杂任务中的推理和规划不稳；
长时程任务中对环境反馈的利用效率不高；
多模态理解和 world model 仍不成熟；
多 Agent 协作、理论解释和安全隐私尚未形成稳固框架。

导论里最重要的风险提醒

Agent 系统的失败通常不是“答错一道题”，而是长期任务中的累积偏差：错误计划、错误调用工具、错误读写外部环境，最后把小问题放大成系统性故障。也因此，部署 Agent 比部署普通 LLM 应用更强调可观测性和评测。

本章小结

研究 Agent framework 的原因很实际：它既决定系统能否处理真实任务，也决定这些系统能否被稳定评估、调试和部署。

课程结构、作业与项目

课程内容分层

PDF 图示资源

本课程把内容分成模型能力、Agent framework、应用和安全伦理四条主线。

打开 PDF 图示

课程结构分为四层：

Model core capabilities：推理、规划、多模态理解。
LLM agent frameworks：workflow、tool use、RAG、多 Agent。
Applications：软件开发、工作流自动化、多模态和企业应用。
Safety & ethics：部署风险、人机交互、隐私和控制问题。

项目方向的设计意图

课程项目不是让学生重复做一个聊天机器人，而是鼓励围绕五类主题展开：应用、基准、基础能力、安全、多 Agent / 去中心化系统。这个设计本身就在提示学生，Agent 研究并不是单一方向，而是一个由能力、系统和治理共同组成的研究空间。

考核与项目组织

导论中也给出了清晰的课程交付方式：

每周阅读任务，用于建立跨讲次的共识背景；
一次 hands-on lab，把框架和工具真正跑起来；
semester-long project，鼓励五人组队并围绕完整问题展开。

从质量要求上看，课程把 1--4 unit 分别对应到不同强度的实现深度，说明它更重视“把 Agent 系统做成一个可说明、可展示、可验证的工程实体”，而不只是阅读论文或写概念综述。

本章小结

这门课的组织方式与它的主题高度一致：课程本身就是一个从阅读、实验到项目落地的 Agent 系统训练场。

总结与延伸

这节导论课完成了三件事：定义 LLM Agent 的系统结构、说明为什么 Agent framework 值得单独研究、以及给出整门课的能力地图与项目路线。它的核心信息非常直接：大模型能力已经足够强，但若想进入真实世界任务，关键瓶颈会从“模型会不会说”转向“系统会不会做”。

拓展阅读

Mialon et al., “GAIA: a benchmark for General AI Assistants,” 2023--2024.
Zhou et al., “WebArena: A Realistic Web Environment for Building Autonomous Agents,” 2024.
Jimenez et al., “SWE-Bench: Can Language Models Resolve Real-World GitHub Issues?,” 2024.
Yao et al., “ReAct: Synergizing Reasoning and Acting in Language Models,” ICLR 2023.