[CS25 V5] The Advent of AGI — Div Garg

LaTeX 源码

字段	内容
作者/整理	基于公开课程资料整理
来源	Stanford CS25: Transformers United V5
日期	Spring 2025

引言：AGI 的到来

Div Garg 是 CS25 课程的联合创始人，斯坦福 CS PhD（专注强化学习），AGI Inc.\ 的创始人兼 CEO。此前创立了 MultiOn——第一个 AI Agent 创业公司。本次讲座聚焦于一个核心问题：AGI 到底是什么样的？

当前的 AI 在聊天和推理方面已经展现出接近超级智能的能力，但 AGI 的具体形态仍然模糊不清：是更强的 ChatGPT？是个人化伴侣？还是嵌入生活方方面面的无形系统？这些是亟待探索的关键问题。

AGI 的定义困境

AGI 目前仍是一个抽象概念——没有人清晰地可视化了它的形态或赋予了它明确的含义。它可能不是单一的产品形态，而是多种形态的组合。

AI Agent 架构

四大核心组件

Div 引用了 OpenAI 研究员 Lilian Weng 的 Agent 架构图，将 AI Agent 分解为四个核心组件：

Agent 四要素

记忆（Memory）：短期记忆（如当前对话窗口）和长期记忆（如用户偏好和历史）
工具使用（Tools）：计算器、日历、网络搜索、代码执行等外部能力
高级规划（Planning）：反思、自我批评、任务分解、思维链推理、错误恢复
行动（Actions）：代表用户在数字或物理环境中执行操作

为什么需要 Agent？

单次 LLM 调用远远不够——要完成复杂的真实世界任务（如预订餐厅、填写表格、进行研究），需要多步推理、工具调用和环境交互的组合能力。Agent 是将 LLM 的智能转化为实际行动的框架。

本章小结

AI Agent 是 LLM 从“对话式 AI”走向“行动式 AI”的关键架构，其核心在于记忆、工具、规划和行动四大能力的协同。

Agent 训练：Agent Q

三大训练技术

Div 详细介绍了他们研发的 Agent Q 系统，该系统结合三种关键技术来训练自主改进的 Agent：

1. 蒙特卡洛树搜索（MCTS）。 Agent 在状态空间中进行探索，评估不同行动路径的预期回报，学习识别正确和错误的决策路径。

2. 自我批评机制（Self-Critic）。 对于给定的任务状态，Agent 提出多个候选行动，然后由一个批评网络对这些行动进行排序。例如，在 OpenTable 预订餐厅的任务中：

行动 A：选择日期和时间（排名第 1）
行动 B：搜索餐厅名称（排名第 2）
行动 C：回到主页（排名第 3）

3. 强化学习（DPO/gRPO）。 利用收集到的成功和失败轨迹作为偏好数据，通过 DPO 优化策略网络。

Agent Q 的惊人效果

在 OpenTable 餐厅预订任务上：

GPT-4o 基线：62.6%
单独使用 DPO：71%
Agent Q（不含 MCTS）：81%
Agent Q（完整系统）：95.4%

从约 20% 到 95.4% 的提升仅需不到一天的训练时间。

Agent 评估

如何在真实世界中评估 Agent 是一个关键挑战。Div 的团队在 OpenTable 上部署了数十万个机器人来测试 Agent 的实际表现，并构建了标准化的评估基准。

本章小结

Agent Q 展示了 MCTS + 自我批评 + RL 的组合如何让 Agent 在真实世界任务上实现自主改进，且训练效率极高。

Agent 通信与协议

多 Agent 系统

单个 Agent 的能力有限，通过让多个 Agent 协作可以完成更复杂的任务。但这需要标准化的通信协议。

Agent 通信协议生态

MCP（Model Context Protocol）：Anthropic 提出的上下文协议
A2A（Agent-to-Agent）：Google 的 Agent 间通信协议
Agent Protocol：开源项目，允许不同类型的 Agent（编码、网页、API）相互通信

通信的挑战

自然语言通信天然是有损的，不同 Agent 之间需要建立类似 HTTP 的结构化协议来可靠传输信息和任务状态。

本章小结

多 Agent 系统通过并行化和专业化提升整体能力，标准化通信协议是实现大规模 Agent 协作的基础设施。

记忆与个性化

AI 记忆系统

Div 将 AI 记忆类比为计算机架构：

短期记忆：类似 RAM，对应当前对话上下文
长期记忆：类似硬盘，对应用户历史、偏好等持久化信息
缺失的部分：类似“意识”或“工作记忆”——Agent 在执行任务过程中的持续状态感知

个性化 Agent

真正有用的 Agent 需要理解用户的个人偏好、习惯和需求。这要求构建有效的长期记忆系统，能够：

记住用户的历史交互
提取和存储用户偏好
在新任务中利用历史知识进行个性化响应

本章小结

记忆系统是 Agent 从通用工具走向个人化助手的关键，目前在“工作记忆”和“长期个性化”方面仍有大量待解决问题。

Agent 的可靠性与未来

可靠性挑战

Agent 最大的挑战是可靠性

LLM 本质上是随机函数，可能以 \(\epsilon\) 概率做出意外行为。在 Agent 场景下，这种随机性会在多步执行中累积，导致循环、计划偏离等问题。

应对策略包括：

更好的基础模型（随着 GPT-4、Claude 等模型的进步，幻觉率持续下降）
领域特定的测试和评估（针对具体应用场景构建全面的测试用例集）
结合 RL 和微调持续改进特定领域的 Agent 表现

小模型 vs.\ 大模型

一个有趣的问题是：Agent 是否需要大模型？当前的趋势表明，通过在推理轨迹上训练和蒸馏，小模型（如 o3-mini 系列）可以在特定任务上达到接近大模型的表现。

可能的最优架构是分层设计：管理 Agent 使用大模型（负责规划和决策），工作 Agent 使用小模型（负责执行具体任务）。

本章小结

可靠性是 Agent 落地的核心瓶颈。解决方案是更好的模型、领域特定的评估，以及灵活的大小模型搭配架构。

总结与延伸

本讲从 AI Agent 的视角审视了通向 AGI 的路径。核心洞见：

AGI 不是单一形态：它可能是多种 Agent 在记忆、工具、规划、行动维度上的协同。
自主改进是核心：Agent Q 展示了 Agent 可以通过自我探索和 RL 快速提升能力。
通信协议是基础设施：MCP、A2A 等协议为多 Agent 协作奠定基础。
可靠性决定落地：从 20% 到 95% 的准确率提升靠技术，从 95% 到 99.9% 的提升靠工程和评估。

拓展阅读

Lilian Weng, “LLM Powered Autonomous Agents”, 2023
Putta et al., “Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents”, 2024
Anthropic, “Model Context Protocol (MCP)”, 2024
Google, “Agent-to-Agent (A2A) Protocol”, 2025