青稞 AI 嘉年华：Agentic 专题讨论

LaTeX 源码

字段	内容
作者/整理	基于青稞 AI 嘉年华公开讨论整理
来源	青稞社区
日期	2026-04-02

从热词到产业拐点：为什么 2025 年成了 Agent 年

热度背后的三条现实支撑

主持人在开场时给出的判断很直接：2025 年并不是 Agent 概念第一次出现，但它第一次同时满足了资本、产品和研究三个方向的共振。市场规模翻倍、头部公司推进 IPO、学术论文与开源系统同步爆发，这些信号使得 Agent 从 “demo 概念” 变成了企业和研究机构共同下注的赛道。

为什么这次不是短期噪声

这一轮 Agent 热潮的不同之处，在于它不再只依赖一个模型榜单或一次产品发布，而是出现了完整链条：

上游有更强的 LLM、reasoning model 与 computer use 模型；
中游有 Cursor、Claude Code、mobile agent、deep analysis 这类实际系统；
下游有企业数据分析、软件工程、GUI 自动化等明确使用场景。

与前几轮 “prompt engineering 热” 相比，这场 panel 更关心的问题不是 “怎么写 prompt”，而是 “怎么把模型变成能长期工作、能和环境交互、能承接工作流的系统能力”。这也是 “agent” 与 “agentic” 被反复区分的背景。

Agent 与 Agentic 的差别

嘉宾们反复强调，早期 Agent 更多是在 prompting 框架上堆出工作流；而 Agentic 更强调把规划、交互、恢复、探索等能力系统化，甚至进一步内化进模型参数。换句话说，前者偏 “外接脚手架”，后者偏 “原生能力建设”。

讨论对象已经从单轮对话变成长期生产力

张少磊给出的例子很有代表性。他们团队把 attention 从一问一答的聊天模式，转向了 data science 自动化场景：企业有大量数据库和分析需求，传统流程需要人工编写 SQL、清洗数据、反复验证结果，而 agentic 系统能把编码、分析、评估与洞察提炼连成闭环。讨论真正切中了一个关键变化：Agent 不再只是回答问题，而是在替人完成工作链路中的多个步骤。

不要把 Agent 等同于一个会调用工具的聊天机器人

如果只把 Agent 理解成 “LLM + tool call”，很容易低估它的工程复杂度。真正难的部分在于：任务拆解是否合理、工具空间是否稳定、记忆能否跨轮保留、错误能否恢复、环境反馈能否形成训练信号。

本章小结

这场 panel 的起点非常清楚：2025 年之所以成为 Agent 年，不是因为概念更新，而是因为模型能力、系统工程和产业需求第一次形成了闭环。接下来所有讨论，都是围绕这个闭环中哪一段最短、该优先补哪一段展开的。

第一条主线：把模型训练成原生 Agent

Agentic training 的问题意识

多位嘉宾都把 “native agentic” 当作 2025 年的核心研究问题。潘嘉怡的表述尤其精炼：今年是大家开始系统化思考 “怎么让一个模型变成 native agentic” 的年份。这个问题的关键词不只是 “会用工具”，而是模型能否在训练后具备更稳定的 coding、computer use、multi-agent collaboration 与 reasoning 能力。

“今年是大家才开始认真的系统化地思考，怎么样让一个模型变成 native agentic。”

Agentic training 的目标不是多加几个技能标签

真正想解决的是模型能力结构：

遇到开放任务时能否主动分解和探索；
遇到环境反馈时能否修正行动；
面对长链路任务时能否保持中间状态；
面对多轮工具调用时能否形成稳定策略。

Data science 场景说明了训练价值

张少磊团队做的 “deep analysis” 给出了一个很强的应用解释。数据科学并不是纯聊天任务，它要求模型在数据库、脚本、评估指标和业务语义之间来回切换。单靠外层 workflow 可以先把系统搭起来，但如果模型本身没有好的分析、编码和环境交互能力，系统很快会在长链路任务里失稳。于是他们把数据分析、代码执行、质量评估等能力通过强化学习进一步注入到模型内部。

为什么企业数据分析是 Agentic training 的好试验场

这个场景同时具备四个条件：

任务链路长，不能靠单轮回答结束；
反馈相对可验证，容易构造 reward；
工具调用密集，能暴露 action selection 的问题；
真实价值明确，自动化是否成功很容易被业务验证。

强化学习在 2025 年重新变得关键

讨论里有一个明显共识：2025 年 Agentic training 能加速，很大程度上因为 RL 终于从 “太难落地” 变成了 “不可绕开” 的一环。嘉宾们把 RL 的作用讲得很务实，它不是魔法配方，而是把 environment、reward、tool use 与长期策略真正串起来的训练接口。尤其在 coding、GUI 与可验证任务中，reward 虽然仍然昂贵，但已经可以形成比纯 SFT 更接近真实任务的优化回路。

强化学习不是自动解决 Agent 的万能钥匙

panel 里的态度并不盲目乐观。大家承认 reward、environment、训练效率、探索空间都仍然是瓶颈。也就是说，RL 让 Agent 更像 “可训练系统”，但没有消除系统设计与数据构造的难度。

本章小结

“把模型训练成 Agent” 是这场讨论的第一条主线。其重点不在于给模型增加一个新 benchmark，而在于让模型逐步具备处理开放环境、长链路任务和工具反馈的原生能力。强化学习、可验证任务与真实工作场景，是这条路线在 2025 年真正变得可做的原因。

第二条主线：模型能力和系统工程不是替代关系

从 LM 到 LM system，再到 Agent system

讨论中很有价值的一点，是嘉宾们没有把 “模型派” 和 “系统派” 对立起来。相反，他们把今天的 Agent 系统看成 LM system 的自然延伸：模型之外还需要 infra、memory、定制化 workflow、交互界面与工具封装。换句话说，强模型并不会让系统工程消失，只会改变系统工程的重点。

“它不只是一个模型在做服务，而是以大模型为核心的一套系统在服务给我们。”

为什么 Cursor / Claude Code 会成为高频例子

这些产品的吸引力并不只来自模型本身的 coding 能力，还来自整套交互系统：

编辑器上下文如何注入；
文件与命令权限如何管理；
工具调用结果如何反馈给模型；
用户如何在关键节点接管流程。

这说明 “好的 Agent 产品” 既是模型问题，也是产品系统设计问题。

Memory、workflow、tool space 的边界在移动

面向 2024 年的 prompting agent，很多能力主要依靠外部 workflow 实现；到了 2025 年，嘉宾们观察到越来越多能力开始往模型内部迁移，包括 coding 习惯、computer use 策略、某些 reasoning 模式，甚至部分 memory 与 tool use 能力。与此同时，外部系统并没有消失，而是在处理新的问题：更复杂的权限控制、更细的用户个性化、更长时间的状态管理。

系统层	2024 年典型做法	2025 年讨论中的变化
模型内部	通用聊天、少量 tool use	开始内化 coding、GUI、multi-agent、reasoning
Memory	外部检索或临时缓存	讨论如何部分内化，但长期状态仍依赖系统
Workflow	Prompt 编排为主	逐步转向能力更强的自主探索与策略学习
Tool space	少量固定工具	行动空间变宽，环境更复杂，约束更关键
产品界面	简单 chat UI	编辑器、移动端、企业系统入口深度耦合

Panel 中隐含的一条判断：模型与系统的边界在不断重划

能力增强之后，系统会承接 “最后一公里”

嘉宾们对下一阶段的判断很一致：当模型内部的 agentic 能力增强到一定程度后，研究重点会再次回到系统外层。原因并不复杂，强模型只能提升上限，但企业应用需要的是稳定性、权限隔离、个性化、安全与部署接口。这些问题即使在模型很强时，也必须由系统来承接。

把所有能力都内化进模型并不现实

如果 environment、memory、权限、外部 API 全都靠模型 “脑补”，系统就会失去可控性。嘉宾们并没有主张彻底内化，而是强调 “哪里是短板，就优先补哪里”。这是一种非常工程化的判断，而不是教条式的 architecture 选择。

本章小结

Agent 的发展不是 “模型取代系统”，而是两者交替成为短板。2025 年的研究重点更偏向把能力注入模型内部；但一旦能力增强，memory、tooling、workflow、权限和产品化接口会重新成为瓶颈。这个来回摆动，本身就是 Agent 系统成熟的轨迹。

第三条主线：Benchmark、Environment 与 RL 共演化

没有 solid benchmark，就很难形成统一范式

panel 里对 benchmark 的讨论很值得单独拎出来。嘉宾们并不满足于 “有几个任务集”，而是强调 benchmark 必须足够 solid，能够覆盖不同 agent 能力、环境反馈和评测维度。只有 benchmark 广度与难度足够，研究社区才能判断当前方法到底改进了什么、哪里还失效、哪些能力只是过拟合在小范围任务上。

Benchmark 在 Agent 领域承担的角色比在纯文本任务里更重

原因在于 Agent 涉及的变量更多：

输入不再只是 prompt，还包括环境状态；
输出不再只是文本，还包括 action sequence；
评测不再只看答案，还要看过程是否稳定、可复现、可恢复；
成功与失败常常受 environment fidelity 影响。

Environment 是训练对象，也是评测基础设施

多位嘉宾在讨论 RL 时都把 environment 放在非常高的位置。环境不是一个背景板，而是 reward、探索空间、tool space 与 benchmark 难度的共同来源。尤其在 GUI、mobile agent、computer use 这类任务中，如果环境是静态的、伪造的或不可复现的，那么训练和评测都会失真。

为什么 Agent 研究会越来越像 “环境工程”

因为 scaling of acting 不够，必须继续 scaling of environment。讨论中明确提到了：

需要更多 infra、更多任务环境、更多数据；
需要更大 tool space 与 action space；
需要真实环境、云手机/云电脑或可复现的沙箱；
需要 world model 或 environment model 来降低构造成本。

Self-evolving 更像方法论，不是单一任务

关于 self-evolving，嘉宾指出了一个很容易被忽略的点：它不像 reasoning 那样一眼就对应到某个具体能力，更像一套围绕不同任务自我改进的方法论。因此 code、math、GUI、视觉等领域很难立刻共享完全统一的范式。短期内更现实的路径，是在各个子领域先形成局部共识，再逐渐向更广泛的统一方法推进。

不要期待所有 Agent 任务立刻共用一套训练 recipe

文本、代码、GUI、视觉的 environment 差异太大，奖励密度、行动空间和失败模式都不同。强行追求统一配方，很容易把关键细节抹平，得到一个对谁都不够好的折中方案。

本章小结

Agent 研究想走向统一范式，绕不开 benchmark 和 environment。它们既决定 RL 是否可训练，也决定评测是否可信。相比 “再找一个更好的 prompt”，这条主线更像是在建设一个能持续迭代 Agent 能力的科研基础设施。

第四条主线：从固定 workflow 走向自主探索

当前 Agent 仍然偏向模板化执行

圆桌后段的一段讨论很有张力：嘉宾指出，今天很多 Agent 虽然已经会调用工具、会执行多步流程，但本质上仍然非常依赖固定 workflow 模板，最多只是出现了有限的局部涌现。真正理想中的 Agent，不是把既定流程执行得更快，而是在陌生问题面前能主动尝试多种路径、比较反馈、再决定下一步。

“摆脱固定的 workflow 走向自主探索” 这句话几乎概括了 panel 对下一阶段能力的期待。

自主探索意味着什么

如果用更工程化的语言改写，这里的 “探索” 至少包含三层能力：

知道什么时候应该继续试，什么时候应该回退；
知道不同工具或不同路径的机会成本；
在不确定环境里仍能维护局部状态和目标函数。

2026 年的三个高概率方向

panel 最后的展望可以被整理成三条可操作的判断。第一，scaling of acting 与 scaling of environment 会继续推进，工业界会持续堆 infra、数据和 action space。第二，研究者会尝试同时 scale reasoning、agent 与 environment，而不是孤立优化某一项。第三，Agent 会在更多行业进入 “最后一公里”，于是个性化、安全和部署细节会成为新的研究热点。

2026 方向	核心动作	难点
Scale acting	扩大 tool space / action space	训练效率与探索成本
Scale environment	构建更多真实或可复现环境	沙箱、复现、reward 设计
Scale co-evolution	同时优化 agent 与 environment 关系	方法统一性不足
Last-mile deployment	深入行业场景与企业系统	个性化、安全、权限、合规

Panel 末尾对 2026 年的判断，更像研究与产业共同的路线图

本章小结

这场讨论的终点不是 “Agent 已经成熟”，而是 “Agent 刚刚从模板化工作流迈向自主探索的前夜”。未来一年最值得关注的，不只是模型更强，而是它们能否在更真实、更动态的环境中稳定完成开放问题。

总结与延伸

核心讨论回顾

主题	panel 共识	代表性问题
产业背景	2025 是 Agent 从概念走向闭环的一年	为什么资本、产品、研究同时起量？
模型训练	要把模型做成 native agentic，而非只靠 prompting	哪些能力该内化进模型参数？
系统工程	LM system 仍然关键，模型越强越需要外层系统承接	memory、workflow、权限如何设计？
Benchmark / RL	solid benchmark 和 environment 决定方法是否能稳定比较	RL 的 reward 与环境如何构造？
未来方向	从固定模板走向自主探索，继续 scale acting 与 environment	2026 年最重要的突破口在哪里？

把整场讨论压缩成五个判断轴

值得带走的三条结论

Agent 的竞争不再是单一模型能力竞争，而是模型能力、系统接口与环境构造的联动竞争。
2025 年最重要的研究变化，是开始认真把 agentic 能力当成训练对象，而不只是 prompt 产物。
真正限制 Agent 规模化落地的，往往不是 demo 是否惊艳，而是 environment、benchmark、memory、权限与部署是否足够扎实。

这场 panel 最有价值的地方

它没有陷入 “哪个框架更好” 的表层争论，而是把 Agent 当成一个完整系统来讨论：模型、工具、环境、训练、产品与行业落地都必须一起看。只有这样，“Agent” 才不只是一个流行名词。

拓展阅读

Deep Research / Deep Analysis 一类数据分析 Agent 系统公开资料
Mobile-Agent、GUI Agent、Computer Use 相关论文与评测
TinyZero、APR、multi-agent collaboration 与 Agentic training 方向论文
关于 world model / environment model 用于 Agent 训练与评测的近期工作
代码 Agent 产品实践：Cursor、Claude Code 等系统化工作流设计资料