跳转至

青稞 AI 嘉年华:Agentic 专题讨论

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于青稞 AI 嘉年华公开讨论整理
来源 青稞社区
日期 2026-04-02

青稞 AI 嘉年华:Agentic 专题讨论

从热词到产业拐点:为什么 2025 年成了 Agent 年

热度背后的三条现实支撑

主持人在开场时给出的判断很直接:2025 年并不是 Agent 概念第一次出现,但它第一次同时满足了资本、产品和研究三个方向的共振。市场规模翻倍、头部公司推进 IPO、学术论文与开源系统同步爆发,这些信号使得 Agent 从 “demo 概念” 变成了企业和研究机构共同下注的赛道。

为什么这次不是短期噪声

这一轮 Agent 热潮的不同之处,在于它不再只依赖一个模型榜单或一次产品发布,而是出现了完整链条:

  • 上游有更强的 LLM、reasoning model 与 computer use 模型;
  • 中游有 Cursor、Claude Code、mobile agent、deep analysis 这类实际系统;
  • 下游有企业数据分析、软件工程、GUI 自动化等明确使用场景。

与前几轮 “prompt engineering 热” 相比,这场 panel 更关心的问题不是 “怎么写 prompt”,而是 “怎么把模型变成能长期工作、能和环境交互、能承接工作流的系统能力”。这也是 “agent” 与 “agentic” 被反复区分的背景。

Agent 与 Agentic 的差别

嘉宾们反复强调,早期 Agent 更多是在 prompting 框架上堆出工作流;而 Agentic 更强调把规划、交互、恢复、探索等能力系统化,甚至进一步内化进模型参数。换句话说,前者偏 “外接脚手架”,后者偏 “原生能力建设”。

讨论对象已经从单轮对话变成长期生产力

张少磊给出的例子很有代表性。他们团队把 attention 从一问一答的聊天模式,转向了 data science 自动化场景:企业有大量数据库和分析需求,传统流程需要人工编写 SQL、清洗数据、反复验证结果,而 agentic 系统能把编码、分析、评估与洞察提炼连成闭环。讨论真正切中了一个关键变化:Agent 不再只是回答问题,而是在替人完成工作链路中的多个步骤。

不要把 Agent 等同于一个会调用工具的聊天机器人

如果只把 Agent 理解成 “LLM + tool call”,很容易低估它的工程复杂度。真正难的部分在于:任务拆解是否合理、工具空间是否稳定、记忆能否跨轮保留、错误能否恢复、环境反馈能否形成训练信号。

本章小结

这场 panel 的起点非常清楚:2025 年之所以成为 Agent 年,不是因为概念更新,而是因为模型能力、系统工程和产业需求第一次形成了闭环。接下来所有讨论,都是围绕这个闭环中哪一段最短、该优先补哪一段展开的。

第一条主线:把模型训练成原生 Agent

Agentic training 的问题意识

多位嘉宾都把 “native agentic” 当作 2025 年的核心研究问题。潘嘉怡的表述尤其精炼:今年是大家开始系统化思考 “怎么让一个模型变成 native agentic” 的年份。这个问题的关键词不只是 “会用工具”,而是模型能否在训练后具备更稳定的 coding、computer use、multi-agent collaboration 与 reasoning 能力。

“今年是大家才开始认真的系统化地思考,怎么样让一个模型变成 native agentic。”

Agentic training 的目标不是多加几个技能标签

真正想解决的是模型能力结构:

  • 遇到开放任务时能否主动分解和探索;
  • 遇到环境反馈时能否修正行动;
  • 面对长链路任务时能否保持中间状态;
  • 面对多轮工具调用时能否形成稳定策略。

Data science 场景说明了训练价值

张少磊团队做的 “deep analysis” 给出了一个很强的应用解释。数据科学并不是纯聊天任务,它要求模型在数据库、脚本、评估指标和业务语义之间来回切换。单靠外层 workflow 可以先把系统搭起来,但如果模型本身没有好的分析、编码和环境交互能力,系统很快会在长链路任务里失稳。于是他们把数据分析、代码执行、质量评估等能力通过强化学习进一步注入到模型内部。

为什么企业数据分析是 Agentic training 的好试验场

这个场景同时具备四个条件:

  • 任务链路长,不能靠单轮回答结束;
  • 反馈相对可验证,容易构造 reward;
  • 工具调用密集,能暴露 action selection 的问题;
  • 真实价值明确,自动化是否成功很容易被业务验证。

强化学习在 2025 年重新变得关键

讨论里有一个明显共识:2025 年 Agentic training 能加速,很大程度上因为 RL 终于从 “太难落地” 变成了 “不可绕开” 的一环。嘉宾们把 RL 的作用讲得很务实,它不是魔法配方,而是把 environment、reward、tool use 与长期策略真正串起来的训练接口。尤其在 coding、GUI 与可验证任务中,reward 虽然仍然昂贵,但已经可以形成比纯 SFT 更接近真实任务的优化回路。

强化学习不是自动解决 Agent 的万能钥匙

panel 里的态度并不盲目乐观。大家承认 reward、environment、训练效率、探索空间都仍然是瓶颈。也就是说,RL 让 Agent 更像 “可训练系统”,但没有消除系统设计与数据构造的难度。

本章小结

“把模型训练成 Agent” 是这场讨论的第一条主线。其重点不在于给模型增加一个新 benchmark,而在于让模型逐步具备处理开放环境、长链路任务和工具反馈的原生能力。强化学习、可验证任务与真实工作场景,是这条路线在 2025 年真正变得可做的原因。

第二条主线:模型能力和系统工程不是替代关系

从 LM 到 LM system,再到 Agent system

讨论中很有价值的一点,是嘉宾们没有把 “模型派” 和 “系统派” 对立起来。相反,他们把今天的 Agent 系统看成 LM system 的自然延伸:模型之外还需要 infra、memory、定制化 workflow、交互界面与工具封装。换句话说,强模型并不会让系统工程消失,只会改变系统工程的重点。

“它不只是一个模型在做服务,而是以大模型为核心的一套系统在服务给我们。”

为什么 Cursor / Claude Code 会成为高频例子

这些产品的吸引力并不只来自模型本身的 coding 能力,还来自整套交互系统:

  • 编辑器上下文如何注入;
  • 文件与命令权限如何管理;
  • 工具调用结果如何反馈给模型;
  • 用户如何在关键节点接管流程。

这说明 “好的 Agent 产品” 既是模型问题,也是产品系统设计问题。

Memory、workflow、tool space 的边界在移动

面向 2024 年的 prompting agent,很多能力主要依靠外部 workflow 实现;到了 2025 年,嘉宾们观察到越来越多能力开始往模型内部迁移,包括 coding 习惯、computer use 策略、某些 reasoning 模式,甚至部分 memory 与 tool use 能力。与此同时,外部系统并没有消失,而是在处理新的问题:更复杂的权限控制、更细的用户个性化、更长时间的状态管理。

系统层 2024 年典型做法 2025 年讨论中的变化
模型内部 通用聊天、少量 tool use 开始内化 coding、GUI、multi-agent、reasoning
Memory 外部检索或临时缓存 讨论如何部分内化,但长期状态仍依赖系统
Workflow Prompt 编排为主 逐步转向能力更强的自主探索与策略学习
Tool space 少量固定工具 行动空间变宽,环境更复杂,约束更关键
产品界面 简单 chat UI 编辑器、移动端、企业系统入口深度耦合
Panel 中隐含的一条判断:模型与系统的边界在不断重划

能力增强之后,系统会承接 “最后一公里”

嘉宾们对下一阶段的判断很一致:当模型内部的 agentic 能力增强到一定程度后,研究重点会再次回到系统外层。原因并不复杂,强模型只能提升上限,但企业应用需要的是稳定性、权限隔离、个性化、安全与部署接口。这些问题即使在模型很强时,也必须由系统来承接。

把所有能力都内化进模型并不现实

如果 environment、memory、权限、外部 API 全都靠模型 “脑补”,系统就会失去可控性。嘉宾们并没有主张彻底内化,而是强调 “哪里是短板,就优先补哪里”。这是一种非常工程化的判断,而不是教条式的 architecture 选择。

本章小结

Agent 的发展不是 “模型取代系统”,而是两者交替成为短板。2025 年的研究重点更偏向把能力注入模型内部;但一旦能力增强,memory、tooling、workflow、权限和产品化接口会重新成为瓶颈。这个来回摆动,本身就是 Agent 系统成熟的轨迹。

第三条主线:Benchmark、Environment 与 RL 共演化

没有 solid benchmark,就很难形成统一范式

panel 里对 benchmark 的讨论很值得单独拎出来。嘉宾们并不满足于 “有几个任务集”,而是强调 benchmark 必须足够 solid,能够覆盖不同 agent 能力、环境反馈和评测维度。只有 benchmark 广度与难度足够,研究社区才能判断当前方法到底改进了什么、哪里还失效、哪些能力只是过拟合在小范围任务上。

Benchmark 在 Agent 领域承担的角色比在纯文本任务里更重

原因在于 Agent 涉及的变量更多:

  • 输入不再只是 prompt,还包括环境状态;
  • 输出不再只是文本,还包括 action sequence;
  • 评测不再只看答案,还要看过程是否稳定、可复现、可恢复;
  • 成功与失败常常受 environment fidelity 影响。

Environment 是训练对象,也是评测基础设施

多位嘉宾在讨论 RL 时都把 environment 放在非常高的位置。环境不是一个背景板,而是 reward、探索空间、tool space 与 benchmark 难度的共同来源。尤其在 GUI、mobile agent、computer use 这类任务中,如果环境是静态的、伪造的或不可复现的,那么训练和评测都会失真。

为什么 Agent 研究会越来越像 “环境工程”

因为 scaling of acting 不够,必须继续 scaling of environment。讨论中明确提到了:

  • 需要更多 infra、更多任务环境、更多数据;
  • 需要更大 tool space 与 action space;
  • 需要真实环境、云手机/云电脑或可复现的沙箱;
  • 需要 world model 或 environment model 来降低构造成本。

Self-evolving 更像方法论,不是单一任务

关于 self-evolving,嘉宾指出了一个很容易被忽略的点:它不像 reasoning 那样一眼就对应到某个具体能力,更像一套围绕不同任务自我改进的方法论。因此 code、math、GUI、视觉等领域很难立刻共享完全统一的范式。短期内更现实的路径,是在各个子领域先形成局部共识,再逐渐向更广泛的统一方法推进。

不要期待所有 Agent 任务立刻共用一套训练 recipe

文本、代码、GUI、视觉的 environment 差异太大,奖励密度、行动空间和失败模式都不同。强行追求统一配方,很容易把关键细节抹平,得到一个对谁都不够好的折中方案。

本章小结

Agent 研究想走向统一范式,绕不开 benchmark 和 environment。它们既决定 RL 是否可训练,也决定评测是否可信。相比 “再找一个更好的 prompt”,这条主线更像是在建设一个能持续迭代 Agent 能力的科研基础设施。

第四条主线:从固定 workflow 走向自主探索

当前 Agent 仍然偏向模板化执行

圆桌后段的一段讨论很有张力:嘉宾指出,今天很多 Agent 虽然已经会调用工具、会执行多步流程,但本质上仍然非常依赖固定 workflow 模板,最多只是出现了有限的局部涌现。真正理想中的 Agent,不是把既定流程执行得更快,而是在陌生问题面前能主动尝试多种路径、比较反馈、再决定下一步。

“摆脱固定的 workflow 走向自主探索” 这句话几乎概括了 panel 对下一阶段能力的期待。

自主探索意味着什么

如果用更工程化的语言改写,这里的 “探索” 至少包含三层能力:

  • 知道什么时候应该继续试,什么时候应该回退;
  • 知道不同工具或不同路径的机会成本;
  • 在不确定环境里仍能维护局部状态和目标函数。

2026 年的三个高概率方向

panel 最后的展望可以被整理成三条可操作的判断。第一,scaling of actingscaling of environment 会继续推进,工业界会持续堆 infra、数据和 action space。第二,研究者会尝试同时 scale reasoning、agent 与 environment,而不是孤立优化某一项。第三,Agent 会在更多行业进入 “最后一公里”,于是个性化、安全和部署细节会成为新的研究热点。

2026 方向 核心动作 难点
Scale acting 扩大 tool space / action space 训练效率与探索成本
Scale environment 构建更多真实或可复现环境 沙箱、复现、reward 设计
Scale co-evolution 同时优化 agent 与 environment 关系 方法统一性不足
Last-mile deployment 深入行业场景与企业系统 个性化、安全、权限、合规
Panel 末尾对 2026 年的判断,更像研究与产业共同的路线图

本章小结

这场讨论的终点不是 “Agent 已经成熟”,而是 “Agent 刚刚从模板化工作流迈向自主探索的前夜”。未来一年最值得关注的,不只是模型更强,而是它们能否在更真实、更动态的环境中稳定完成开放问题。

总结与延伸

核心讨论回顾

主题 panel 共识 代表性问题
产业背景 2025 是 Agent 从概念走向闭环的一年 为什么资本、产品、研究同时起量?
模型训练 要把模型做成 native agentic,而非只靠 prompting 哪些能力该内化进模型参数?
系统工程 LM system 仍然关键,模型越强越需要外层系统承接 memory、workflow、权限如何设计?
Benchmark / RL solid benchmark 和 environment 决定方法是否能稳定比较 RL 的 reward 与环境如何构造?
未来方向 从固定模板走向自主探索,继续 scale acting 与 environment 2026 年最重要的突破口在哪里?
把整场讨论压缩成五个判断轴

值得带走的三条结论

  1. Agent 的竞争不再是单一模型能力竞争,而是模型能力、系统接口与环境构造的联动竞争。
  2. 2025 年最重要的研究变化,是开始认真把 agentic 能力当成训练对象,而不只是 prompt 产物。
  3. 真正限制 Agent 规模化落地的,往往不是 demo 是否惊艳,而是 environment、benchmark、memory、权限与部署是否足够扎实。

这场 panel 最有价值的地方

它没有陷入 “哪个框架更好” 的表层争论,而是把 Agent 当成一个完整系统来讨论:模型、工具、环境、训练、产品与行业落地都必须一起看。只有这样,“Agent” 才不只是一个流行名词。

拓展阅读

  • Deep Research / Deep Analysis 一类数据分析 Agent 系统公开资料
  • Mobile-Agent、GUI Agent、Computer Use 相关论文与评测
  • TinyZero、APR、multi-agent collaboration 与 Agentic training 方向论文
  • 关于 world model / environment model 用于 Agent 训练与评测的近期工作
  • 代码 Agent 产品实践:Cursor、Claude Code 等系统化工作流设计资料