Ep110 8Dkbh4X0D9O
导读:为什么这几份报告都指向 Agent
本节先建立整期的学习目标。这期节目读了几份近期最值得细读的 Agent 技术材料:Kimi K2 技术报告、ChatGPT Agent 发布文、Qwen3-Coder 技术博文,以及 Manus 的上下文工程经验。它们看似来自不同公司和产品,但共同指向一个主题:大模型正在从“回答问题”走向“在环境中完成任务”。
Agent 的关键不只是调用工具,而是完整闭环:感知环境、决策、行动、读取反馈、修正轨迹。这个闭环会牵出一整套工程问题:合成数据、轨迹生成、强化学习、可验证奖励、安全沙盒、上下文工程、KV cache、工具选择、文件系统记忆和多 Agent 组织。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{report-comparison.png}
\caption{四份报告对照:Kimi、ChatGPT Agent、Qwen3-Coder、Manus 分别强调不同层。自制概念图,依据视频结构和官方材料整理。}
\end{figure}
读图:四份材料各看一层
Kimi K2 看开放模型和 agentic training,ChatGPT Agent 看统一产品系统,Qwen3-Coder 看代码环境里的 RL 和工具使用,Manus 看生产 Agent 的上下文工程。合起来就是 Agent 从模型、训练、产品到工程部署的全链条。
本期核心命题
Agent 的进步不是单一模型能力提升,而是系统工程:模型、环境、任务、工具、奖励、安全和上下文共同优化,才能把智能从输出文本推进到完成真实任务。
四份材料的学习顺序
| 材料 | 先看什么 | 教学价值 |
|---|---|---|
| Kimi K2 | MoE、MuonClip、agentic data、joint RL | 看开放模型如何被训练成 Agentic。 |
| ChatGPT Agent | Operator + Deep Research + 工具计算机 | 看 Agent 如何变成用户产品。 |
| Qwen3-Coder | Code RL、long-horizon RL、Qwen Code | 看代码环境为什么适合 Agent RL。 |
| Manus | KV cache、工具遮蔽、文件系统、错误保留 | 看生产 Agent 如何靠上下文工程稳定运行。 |
关键数字速览
| 材料 | 关键数字/事实 | 教学含义 |
|---|---|---|
| Kimi K2 | 约 1T 总参数、32B 激活参数、15.5T tokens | 开放 MoE 模型也进入超大规模系统训练。 |
| Kimi K2 | SWE-Bench Verified 65.8、Tau2-Bench 66.1 | Agentic benchmark 成为模型报告核心指标。 |
| Qwen3-Coder | 480B MoE、35B active、256K/1M context | 代码 Agent 需要超长上下文和仓库级理解。 |
| Qwen3-Coder | 20,000 并行环境用于 long-horizon RL | Agent RL 的瓶颈是环境规模化。 |
| Manus | 输入/输出 token 比例约 100:1 | KV cache 对成本和延迟极其关键。 |
本章小结
EP110 是 Agent 技术报告课。它把 EP115 的 Agent 理论、EP113 的 K2 模型公司视角、EP116 的企业级 Agentic Model 连接起来,展示“系统工程的力量”。
Agent 定义与分类:感知 + 行动
导读说明四份材料都指向 Agent,本章先把概念底座搭稳,回答一个具体问题:什么系统才算 Agent,而什么只是聊天机器人。视频描述给出的简洁定义是:Agent 是能够与环境进行交互的智能系统,具备感知能力和行动能力。感知包括观察环境、读取反馈、解析上下文;行动包括调用工具、生成输出、控制界面、修改变量。最小循环是“观察 → 决策 → 行动”。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{agent-definition-loop.png}
\caption{Agent 最小定义:感知环境、决策、行动,再读取反馈。自制概念图,依据 00:02:00--00:14:50 对谈内容整理。}
\end{figure}
读图:Agent 和 Chatbot 的差别
Chatbot 主要响应输入;Agent 要在环境中改变状态。只要系统开始调用工具、读反馈、调整计划,就从对话系统走向智能体系统。
四类 Agent
有了最小定义之后,本节按环境和产品形态分类。节目把 Agent 分成 Coding Agent、Search Agent、Tool-use Agent 和 Computer-use Agent。这个分类不是严格学术分类,而是产品和环境分类:代码、搜索、工具、电脑界面,对应不同 affordance 和验证方式。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{agent-types-map.png}
\caption{Agent 类型地图:Coding、Search、Tool-use、Computer-use 对应不同环境。自制概念图,依据 00:02:00--00:14:50 对谈内容整理。}
\end{figure}
术语消化:Agent 类型
| 类型 | 代表任务 | 难点 |
|---|---|---|
| Coding Agent | 代码补全、重构、调试、PR 修改 | 代码库上下文、测试、长程修改。 |
| Search Agent | 检索、汇总、调研报告 | 信息源可信、引用、去重和 synthesis。 |
| Tool-use Agent | 调用 API、函数、数据库和业务工具 | 工具选择、参数生成、错误恢复。 |
| Computer-use Agent | 操作浏览器、GUI、跨应用流程 | 视觉 grounding、状态追踪、权限安全。 |
本章小结
Agent 的定义可以很简单,但落地非常复杂。不同 Agent 类型的本质差别,在于它们面对的环境、工具和反馈不同。
两条技术路线:In-Context 与 End-to-End
上一章定义了 Agent 和环境类型,本章讨论怎样把 Agent 做出来。节目把路线分为 In-Context Learning 和 End-to-End Training。In-context 路线依赖强预训练模型、prompt、工具协议和上下文工程,迭代快、灵活性高;End-to-end 路线把行为写进模型权重,推理更稳定,但训练成本高、环境构建复杂。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{agent-training-routes.png}
\caption{Agent 两条训练路线:In-context 灵活,End-to-end 稳定但成本高。自制概念图,依据 00:14:50--00:30:57 对谈内容整理。}
\end{figure}
读图:两条路线不是非此即彼
很多真实系统会混合两者:用 in-context 快速搭产品,用合成轨迹和 RL 把关键行为训练进模型,再用上下文工程处理生产细节。
Agent Training 三件套
技术路线最终都要落到训练和部署,本节拆 Agent training 的三件套。Agent training 的关键环节包括数据合成、强化学习和安全。数据合成生成高质量 trajectory;强化学习依赖清晰 task 和 verifiable reward;安全则需要 sandbox、行为约束和 human-in-the-loop。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{training-ingredients.png}
\caption{Agent Training 三件套:合成轨迹、强化学习和安全约束共同构成训练管线。自制概念图,依据 00:28:29--00:30:57 对谈内容整理。}
\end{figure}
Agent 数据的范式变化
传统标注数据常是 input-output;Agent 数据更像 environment + task + action trajectory + reward。模型学的不只是答案,而是如何在环境中行动。
训练环节对照
| 环节 | 产物 | 主要风险 |
|---|---|---|
| Data Synthesis | 高质量行动轨迹与工具调用示范 | 轨迹不真实,模型学会演戏。 |
| RL | 从环境反馈中优化策略 | reward 设计错误或被 hack。 |
| Safety | 沙盒、权限、人工确认、拒绝策略 | 太松危险,太紧无法完成任务。 |
| Evaluation | 任务成功率、成本、恢复能力 | benchmark 与真实任务不一致。 |
本章小结
Agent training 的核心是把任务放进环境,让模型通过轨迹、奖励和安全约束学习行动。它不是单纯 SFT,也不是单纯 prompt engineering。
Kimi K2:Open Agentic Intelligence
前两章讲 Agent 的通用框架,本章进入第一份技术报告,核心问题是:开放模型如何为 Agentic 能力做系统训练,并接近闭源前沿。Kimi K2 是 1T 参数级 MoE 模型,激活参数约 32B。报告提出 MuonClip 优化器,用 QK-Clip 处理 Muon 训练不稳定,同时保留 token efficiency;K2 在 15.5T tokens 上预训练,后训练包含大规模 agentic data synthesis 和 joint RL。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{kimi-k2-agentic-pipeline.png}
\caption{Kimi K2 Agentic Pipeline:MuonClip、15.5T tokens、agentic data synthesis 与 joint RL。自制概念图,依据 Kimi K2 技术报告和 00:30:57--00:43:50 对谈内容整理。}
\end{figure}
读图:Kimi K2 的重点不是单一 benchmark
K2 把 MoE 底座、稳定优化器、大规模数据、工具轨迹合成和 RL 放在一起。它的 agentic 能力来自一整条训练管线,而不是只靠后处理。
MuonClip 与 QK-Clip
读懂 K2,不能只看 agentic benchmark,也要看它如何稳定训练。本节解释 MuonClip 与 QK-Clip。Muon 有 token efficiency 优势,但大规模训练可能不稳定;QK-Clip 通过约束 attention logits 来控制训练发散风险。报告强调,MuonClip 使 K2 能在 15.5T tokens 训练中保持稳定。
术语消化:Kimi K2 训练组件
| 组件 | 作用 | 风险/意义 |
|---|---|---|
| MoE | 增加总参数但控制激活计算 | 路由、专家负载和训练稳定性复杂。 |
| MuonClip | 提升 token efficiency 并稳定训练 | 需要处理 attention logits 爆炸。 |
| QK-Clip | 约束 query/key 投影导致的 logits | 属于最小干预式稳定机制。 |
| Agentic data synthesis | 生成工具使用轨迹和任务数据 | 质量过滤和奖励设计很关键。 |
| Joint RL | 在真实/合成环境中提升能力 | 环境和 reward 成本高。 |
本章小结
Kimi K2 的教学价值在于,它把开放模型、MoE、优化器稳定性、合成工具轨迹和 RL 组合成一个 agentic training pipeline。
ChatGPT Agent:连接研究与实践
Kimi K2 展示模型训练管线,本章转到产品系统,核心问题是:训练出来的 Agent 如何进入用户工作流,并承担真实操作风险。第二份材料是 ChatGPT Agent 发布文。OpenAI 将 Operator、Deep Research 和 ChatGPT 对话能力整合成统一的智能体系统。它通过自己的虚拟计算机、文本浏览器、可视化浏览器、终端和 API 访问来完成任务,同时保留用户确认、接管和中断能力。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{chatgpt-agent-unified-system.png}
\caption{ChatGPT Agent 统一系统:Operator + Deep Research + ChatGPT + 工具计算机。自制概念图,依据 OpenAI 官方页面和 00:43:50--01:53:38 对谈内容整理。}
\end{figure}
读图:产品系统比模型多很多层
ChatGPT Agent 不只是模型,它包含浏览、搜索、代码执行、文件处理、连接器、用户确认和安全策略。这些层决定它能不能处理真实工作流。
ChatGPT Agent 工具栈
| 工具/层 | 作用 | 风险控制 |
|---|---|---|
| 视觉浏览器 | 与人类网页交互,点击、筛选、填写 | 用户可接管浏览器。 |
| 文本浏览器 | 高效读取大量网页文本 | 需要来源过滤和引用。 |
| Terminal | 运行代码、处理文件和数据 | 高风险操作需限制。 |
| Connectors/API | 连接 Gmail、GitHub、日历等 | 权限和隐私控制。 |
| User confirmation | 执行重要操作前确认 | 降低误操作后果。 |
安全:新能力带来新风险
OpenAI 页面强调,新型 Agent 能在网页上执行操作,因此带来提示注入、误操作、隐私和高风险任务问题。控制措施包括重要操作确认、接管模式、监控模式、拒绝高风险任务、限制数据访问和安全浏览器接管。
Agent 安全的核心变化
聊天模型说错话,后果通常还在文本层;Agent 做错动作,可能影响账户、文件、邮件、购买、代码和真实业务。因此安全从内容审核扩展到权限、工具、确认和审计。
安全风险分层
| 风险 | 例子 | 防护思路 |
|---|---|---|
| 提示注入 | 网页隐藏指令诱导 Agent 泄露数据 | 检测、隔离、重要动作确认。 |
| 误操作 | 误发邮件、误购买、误删文件 | 人类确认、接管、权限分级。 |
| 隐私泄露 | 连接器或登录网站数据被读取 | 最小权限、会话清理、禁用无关连接器。 |
| 高风险任务 | 金融、生物、危险操作 | 拒绝策略、监控模式、专门防护。 |
本章小结
ChatGPT Agent 的重点是统一产品系统:它把研究能力、网页操作、工具执行和用户控制放进同一工作流,展示了 Agent 从实验到产品的路径。
Qwen3-Coder:Agentic Coding in the World
前一章看通用产品 Agent,本章看代码环境里的 Agent,核心问题是:为什么 coding 是最适合 Agent 训练的高价值环境之一,以及开源模型如何在这个环境里追赶。第三份材料是 Qwen3-Coder。官方博文介绍 Qwen3-Coder-480B-A35B-Instruct:480B MoE、35B active,原生 256K context,通过 YaRN 可扩到 1M。它面向 agentic coding,强调 code RL、long-horizon RL、20,000 并行环境,以及 Qwen Code 工具链。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{qwen3-coder-stack.png}
\caption{Qwen3-Coder Stack:480B MoE、256K/1M context、Code RL 与 Long-horizon RL。自制概念图,依据 Qwen 官方博文和 01:53:38--01:59:04 对谈内容整理。}
\end{figure}
读图:代码是最适合 Agent RL 的环境之一
代码任务 hard to solve, easy to verify:解决很难,但测试和执行反馈相对明确。这让代码成为大规模 RL 和 long-horizon interaction 的好环境。
Code RL 与 Long-horizon RL
上一节给出 Qwen3-Coder 的模型栈,本节解释它为什么强调 RL。Qwen3-Coder 博文强调,代码任务天然适合 execution-driven RL。真实软件工程任务需要多轮交互:规划、使用工具、接收反馈、修正决策。Qwen3-Coder 引入 long-horizon RL,并构建可并行运行的大规模环境。
为什么 coding 是 Agent 的高地
代码环境有清晰动作、可执行反馈、测试验证和高价值任务。相比很多开放世界任务,coding 更容易定义 reward,也更容易规模化训练和评测。
Code RL 为什么“难解但易验”
很多代码任务的解决过程很难,需要理解代码库、规划修改和调试;但结果可以通过测试、编译、lint、benchmark 或用户脚本验证。这种结构非常适合强化学习,因为 reward 可以相对自动化。
本章小结
Qwen3-Coder 展示了开源模型在 agentic coding 上的系统路线:长上下文、代码数据、执行驱动 RL、长程工具交互和 CLI 工具链。
Manus:上下文工程是生产 Agent 的核心
Kimi、ChatGPT Agent、Qwen 分别展示模型、产品和代码 RL,本章看生产 Agent 最容易被低估的一层:上下文工程。Manus 选择基于前沿模型的 in-context 能力构建 Agent,而不是从头训练端到端模型。它强调上下文工程是一门实验科学,生产 Agent 的关键不只是 prompt,而是 KV cache、工具管理、文件系统记忆、todo 复述、保留错误和避免少样本陷阱。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{manus-context-engineering.png}
\caption{Manus Context Engineering:KV cache、工具遮蔽、文件系统、todo、错误保留和多样性。自制概念图,依据 Manus 官方博文和 01:59:04--02:06:06 对谈内容整理。}
\end{figure}
读图:上下文工程是运行时工程
训练让模型有能力,上下文工程让 Agent 在生产中稳定、便宜、可恢复地使用能力。它处理的是每一轮工具调用、上下文增长和失败恢复。
KV cache 与工具遮蔽
上一节说上下文工程是运行时工程,本节拆两个最实用的原则:KV cache 和工具遮蔽。Manus 认为 KV-cache 命中率是生产 Agent 最重要指标之一,因为 Agent 的输入输出比例高度偏向输入,缓存直接影响延迟和成本。它还主张“遮蔽,而非移除”工具:动态增删工具会破坏缓存并混淆模型;更好的做法是保留工具定义,用状态机或 logits mask 控制可选工具。
术语消化:上下文工程关键点
| 技术 | 作用 | 错误做法 |
|---|---|---|
| KV cache | 降低长前缀重复推理成本 | 每轮改变系统 prompt 或工具定义。 |
| Tool masking | 控制当前可用动作 | 动态删除工具导致上下文不一致。 |
| Filesystem as context | 用文件系统做外部长期记忆 | 把所有内容塞进上下文窗口。 |
| Todo.md | 通过复述目标操控注意力 | 长任务中不刷新目标。 |
| Keep errors | 保留失败证据帮助恢复 | 清理错误导致重复犯错。 |
生产 Agent 检查清单
一个生产 Agent 至少要回答六个问题:上下文是否可缓存?工具空间是否可控?长期记忆在哪里?失败是否保留?目标是否会被复述到近期上下文?重复示例是否会让模型陷入模式?Manus 的经验几乎都围绕这些问题展开。
生产 Agent 系统 checklist
| 检查项 | 问题 | 不做的后果 |
|---|---|---|
| 缓存 | 前缀是否稳定、上下文是否 append-only? | 成本和延迟暴涨。 |
| 工具 | 工具定义是否稳定、动作是否可约束? | 选错工具、缓存失效、动作幻觉。 |
| 记忆 | 长期状态是否外部化到文件或数据库? | 上下文爆炸或信息丢失。 |
| 错误 | 失败轨迹是否保留给模型学习? | 重复同一错误。 |
| 安全 | 高风险动作是否确认和审计? | Agent 误操作造成真实损害。 |
本章小结
Manus 提醒我们,Agent 的生产问题常常不是模型不够强,而是上下文、工具、记忆和失败恢复没有设计好。
新范式:Environment + Task-Reward
本章收束到节目里的展望:新的数据核心可能从 input-output 标注,转向 environment 和 task-reward 构造。也就是说,未来训练 Agent 的核心不只是收集答案,而是构造可交互环境、定义任务、设计可验证 reward,让模型从经验中 self-improve。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{new-agent-paradigm.png}
\caption{Agent 新范式:数据核心从 input-output 转向 environment + task-reward。自制概念图,依据 02:06:06--02:15:20 对谈内容整理。}
\end{figure}
读图:从答案数据到经验数据
Input-output 数据教模型“看到输入给出答案”;environment + task-reward 教模型“在环境中行动并从反馈中改进”。这就是 Agent 与普通聊天模型的数据范式差异。
Rubrics as reward 与 self-improvement
上一节讲新数据范式,本节聚焦它的核心难题:reward 从哪里来。节目提到 rubrics as reward,即用评分标准作为奖励机制。它的意义是:很多现实任务没有简单对错,但可以有分层评分标准。Agent 能不能自我提升,取决于它能否找到或构造可验证 reward,并有效利用交互经验。
Self-improve 的前提
Agent 自我提升不是让模型无限自嗨。它需要可验证任务、可靠环境、可审计轨迹和防止 reward hacking 的安全机制。
新范式对照表
| 范式 | 数据形态 | 主要瓶颈 |
|---|---|---|
| Input-output | 输入和标准答案 | 标注成本和泛化边界。 |
| Trajectory | 观察、动作、工具调用、结果 | 轨迹质量和错误恢复。 |
| Environment | 可交互任务世界 | 环境构建成本和覆盖度。 |
| Task-reward | 任务定义和可验证反馈 | reward 设计和安全。 |
| Experience reuse | 利用历史经验自我提升 | 记忆、去噪和防止自嗨。 |
Family of Agents
reward 和 self-improvement 讨论的是单体系统如何学习,本节转向多 Agent 组织。结尾提到 Agent 像“拓展的大脑”,背后有一个军团。这个比喻说明未来 Agent 可能不是一个单体,而是一组专门化智能体:coding、search、browser、memory、safety 等共同协作。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{family-of-agents.png}
\caption{Family of Agents:Agent 像拓展的大脑,背后是一支军团。自制概念图,依据 02:15:20--02:16:41 对谈内容整理。}
\end{figure}
本章小结
Agent 的新范式是把数据、环境、奖励和经验循环合在一起。真正的系统工程,是让这些循环可规模化、可验证、可安全部署。
总结与延伸
本节把 EP110 压缩成几个结论。第一,Agent 的最小定义是感知和行动,而不是聊天。第二,Kimi K2、ChatGPT Agent、Qwen3-Coder 和 Manus 分别展示了 Agent 栈的模型、产品、代码/RL 和上下文工程层。第三,Agent training 的核心从 input-output 走向 trajectory、environment、task-reward 和 safety。第四,生产 Agent 的关键是系统工程:KV cache、工具遮蔽、文件系统记忆、错误恢复和用户控制。
把 EP110 放进张小珺 AI 队列
EP115 给出 Agent 下半场理论,EP113 讲 Kimi K2 的模型公司视角,EP116 讲企业级 Agentic Model;EP110 则把几份最新技术报告合在一起,展示 Agent 从论文、模型、产品到工程落地的完整链条。
与前后几集的关系
| 节目 | 主题 | 与 EP110 的连接 |
|---|---|---|
| EP115 | Agent 下半场理论 | 给出 reward、environment、interface 的理论框架。 |
| EP113 | Kimi K2 和 Agentic LLM | 给出模型公司如何理解 K2 和开源生态。 |
| EP116 | 企业级 Agentic Model | 给出 Agent 在 ToB 私有数据中的部署视角。 |
| EP139 | Agent 技术史 | 给出 Agent 从早期系统到 LLM Agent 的历史脉络。 |
关键 takeaways
前面章节已经分别从定义、训练、产品、代码环境和上下文工程解释 Agent。本节把这些内容压缩成几条工程判断,方便后续和 EP115、EP113、EP116 对照。
- Agent = 感知 + 行动 + 反馈,不是“会调用工具”的单点能力。
- Kimi K2 的重点是开放 MoE 模型、MuonClip、合成工具轨迹和 joint RL。
- ChatGPT Agent 的重点是统一产品系统和用户控制。
- Qwen3-Coder 的重点是代码环境、Code RL、Long-horizon RL 和工具链。
- Manus 的重点是上下文工程,特别是 KV cache、工具遮蔽和文件系统记忆。
开放问题
这些问题是 Agent 从报告走向产品后仍然没有定论的部分。它们决定下一轮训练范式、产品架构和基础设施投入方向。
- Agent 训练中,合成轨迹和真实环境反馈如何配比?
- Rubrics as reward 能否支撑开放任务中的可靠 self-improvement?
- In-context 与 end-to-end 两条路线最终会融合到什么形态?
- 生产 Agent 的成本瓶颈会更主要来自模型调用、工具执行还是上下文长度?
拓展阅读
- 对 Agent 理论框架感兴趣,可对照 EP115 姚顺雨访谈。
- 对 Kimi K2 模型公司视角感兴趣,可对照 EP113 杨植麟访谈。
- 对企业 Agentic Model 感兴趣,可对照 EP116 吴明辉访谈。