跳转至

访谈笔记:GUI Agent 的下一站

LaTeX 源码 · 备用 PDF · 观看视频

字段 内容
作者/整理 基于 Ungrounded 不着边际 EP01 整理
来源 Ungrounded 不着边际
日期 2026-05-08

访谈笔记:GUI Agent 的下一站

导言

这场对谈的价值不在于给出一个“GUI Agent 现状速览”,而在于它把同一个问题从研究、产品、商业和组织四个层面反复折开:当模型终于开始能够操作真实数字环境时,我们究竟应该把它理解成一个会点屏幕的自动化工具,还是理解成一种正在形成的新型数字代理?谢天宝、谷雨和尚晏仪的背景正好构成三种互补视角:一个从 OSWorld、GUI grounding 和 benchmark 出发,一个从 semantic parsing、Mind2Web 和学术 evaluation 出发,一个从 2021 年开始做 GUI Agent 产品、后来转向 AI 旅行的商业实践出发。三个人并没有给出一个统一口号,但他们不断围绕同一组张力来回校准:真实场景与 benchmark、通用入口与垂直产品、可见操作与用户体验、长期记忆与概念漂移、速度优势与可积累资产。

如果只按时间顺序复述这期节目,会很容易把它读成一串行业观点:Operator 不好用、benchmark 分数没那么重要、Agent 可能冲击广告、memory 很难、startup 要有护城河。但这场对谈真正有意思的地方,是这些观点并不是孤立的。Operator 的体验问题,最后会回到“用户到底想不想看 Agent 操作”;benchmark 的危机,最后会回到“真实产品能否产生可靠 reward”;Unified Action Space 的讨论,最后会回到“Deep Research、Coding、Browser Use、GUI 操作为什么不该被切碎”;概念漂移的警惕,最后会回到“一个组织如何维持共同语义”。换句话说,这不是一场关于 GUI Agent 的功能清单,而是一场关于“数字代理如何进入现实世界”的方法论讨论。

这份笔记因此不严格按时间线展开,而是按八个主题重新组织。每个主题都尽量保留对谈里的具体语境:谁从什么经验出发,为什么会得出这个判断,它反驳了哪种常见误解,以及这个判断对研究者、产品团队或创业者分别意味着什么。

阅读这份笔记的三条主线

第一条主线是“评价问题”:从 OSWorld、Mind2Web 到真实产品,什么样的 evaluation 才能真正指导 Agent 进步。第二条主线是“产品问题”:从 Operator、豆包手机、Unified Action Space 到 context switching,用户到底需要一个怎样的数字代理。第三条主线是“积累问题”:从 memory、knowledge、组织语义库到 startup 护城河,Agent 系统如何在真实交互中形成长期资产。

最后要说明的是,原视频没有官方字幕,本整理基于本地 Whisper 转写和逐段校读完成。由于视频主要是多人对谈而非课件讲授,正文没有强行插入人像截图;封面保留原始视频封面,图表主要用于压缩概念关系,而不是装饰。

从“会操作电脑”到“理解数字任务”

三位嘉宾的进入路径,恰好说明 GUI Agent 并不是一个突然冒出来的新风口。谷雨从 semantic parsing 讲起:早期研究关注如何把自然语言 instruction 转换成数据库查询、知识库操作或其他 formal representation。那个阶段的环境更可控,任务更像“把一句话翻译成一个可执行结构”。但问题本质已经很接近今天的 computer-using agent:用户给出自然语言目标,系统需要把它转成环境中的可执行动作。

谢天宝的路径则沿着 agent benchmark 与真实 GUI 环境展开。从 AgentBench、intercode、OSWorld 到多模态 GUI grounding,他关注的是怎样让模型在屏幕、网页、操作系统里真正做事,而不是只在文本空间里回答问题。尚晏仪提供了第三条线:从 2021 年开始做能替用户操作电脑的产品,到后来做 Web Agent 和通用 GUI Agent,再到发现通用入口太难商业化,转向 AI 旅行这类具体场景。三条线放在一起看,会发现 GUI Agent 的关键不是“鼠标点击”本身,而是语言、视觉、动作、用户偏好和真实业务流程如何被接到一起。

GUI Agent 的历史前传

前传线索 对今天 GUI Agent 的意义
Semantic Parsing 训练系统把自然语言任务转成可执行表示,提供了“语言到行动”的早期形式。
Web Automation / RPA 证明很多数字任务可以被流程化,但也暴露了规则系统对动态环境的脆弱性。
Agent Benchmark 用 OSWorld、Mind2Web 等任务把能力问题显式化,让模型可以被横向比较。
产品化探索 暴露研究 demo 与用户体验之间的距离:能执行不等于好用,能展示过程不等于建立信任。

2025 年的变化,是这些线索终于被更强的多模态模型重新接上。谢天宝提到,早期模型连“点右上角关闭按钮”“把音量拖到 80%”“修改输入框里的名字”这类看似简单的动作都做不好。后来通过大规模合成数据、环境扩展和模型迭代,GUI grounding 从“纯概念”走向“基本可用”。这不是小修小补,因为 GUI 环境的难点并不只是看见按钮,而是把视觉定位、语言指令、屏幕坐标、动作类型和任务目标同时对齐。

但这也正是产品问题开始变尖锐的地方。尚晏仪讲 Operator 时的态度很典型:它让从业者感到方向被认可,但她并不认为它是一个好产品。用户看着一个小电脑慢慢点击网页,很容易迷茫;一个原本自己几秒钟能完成的动作,被 AI 以很慢的速度展示出来,未必增加信任,反而可能暴露笨拙。研究者想证明“我真的替你操作了”,用户却可能只想知道“结果是否可靠,我是否需要确认”。

把 GUI Agent 等同于“看见屏幕并点击”,会错过真正的问题

GUI Agent 的表层动作是点击、输入、滚动和拖拽;但它的深层问题是数字任务理解。一个成熟 Agent 应该知道什么时候点 GUI,什么时候调用 API,什么时候写脚本,什么时候直接读文件,什么时候向用户确认。GUI 是动作空间的一部分,而不是智能本身。

这一章真正建立的是整场对谈的底层前提:GUI Agent 的未来不只是更强 grounding,也不是更逼真的“远程小电脑”。它要解决的是数字环境里的目标理解、行动选择、反馈学习和信任边界。只有把这个前提立住,后面关于 benchmark、商业模式、UDA、memory 和护城河的讨论才会连成一条线。

本章小结

GUI Agent 不是从零出现的新概念,而是 semantic parsing、web automation、agent benchmark 和产品化探索汇合后的结果。2025 年多模态能力让“操作电脑”进入可用区间,但真正难的是从“执行动作”上升到“理解数字任务”。Operator 这类产品的争议说明,研究证明和用户体验之间仍有很长距离。

Benchmark 危机:从可比较分数到真实场景信号

这场对谈最扎实的一段,是关于 benchmark 和 evaluation。谷雨的起手式很清楚:学术界和工业界需要的 evaluation 本来就不是同一种东西。学术界希望有可控实验来验证假设、定义新问题、比较方法能力;工业界则更关心评测上的提升能否迁移到真实部署,是否真的让用户完成任务、满意、留存或付费。

这一区分重要,是因为当下很多人一边说 benchmark 分数不重要,一边又离不开 benchmark。谢天宝给了一个更细的判断:benchmark 不是没用,而是要看处在什么阶段。在 0 到 1 阶段,它能定义问题、暴露短板、证明现有模型不会;一旦进入 60 到 99 的优化阶段,公开分数就越来越容易受数据合成、训练集过拟合和任务定制影响。这时只看分数,反而会误判真实可用性。

Benchmark 的位置变化

Benchmark 最适合扮演 signal,而不是 final answer。它可以告诉社区“这里有一个问题”“模型在这里有短板”“某种能力开始出现”;但它不能单独回答“这个 Agent 在真实产品里是否好用”。越接近产业落地,越需要真实用户、真实 API、真实 case 和持续反馈闭环来校准。

尚晏仪从旅行产品讲 reward,补上了工业界最难的一环。旅行产品最终可以看“有没有卖出一张票”,但这个 reward 离模型的每一步决策太远。用户没买票,可能是价格不合适,可能是路线不喜欢,可能是不信任 AI,也可能只是临时改变计划。用户说“不错”,也不等于真的会购买。也就是说,最终结果很清楚,但过程归因很模糊;主观反馈很多,但可训练信号很少。

这和学术 benchmark 的困难不同。学术任务里 reward 往往是预先定义的:做对得分,做错扣分。但真实产品里,用户自己也未必知道什么体验才是好体验。例如语音旅行助手什么时候该打断,什么时候该倾听,什么时候该长篇解释,这些问题不可能靠研究者凭直觉写一个 benchmark 就解决。尚晏仪说他们更依赖 A/B Test 和可持续试验基础设施,其实是在承认:用户偏好不是写出来的,是在真实交付中逐渐显影的。

0 到 1 与 60 到 99

阶段 Benchmark 的价值 主要风险
0 到 1 定义新任务,证明模型不会,给领域建立共同语言。 任务可能脱离真实场景,成为“为了 benchmark 而 benchmark”。
60 到 99 作为局部能力信号,帮助工程团队定位短板。 分数容易被训练、数据增强、任务定制和选择性展示污染。
真实产品 需要和用户反馈、商业结果、失败归因一起使用。 reward 稀疏、主观、长链路,难以直接转成训练信号。

这一段背后的更大问题,是 Agent 研究开始从“能力是否存在”走向“能力如何稳定产生价值”。在前者里,benchmark 是一种科学仪器;在后者里,benchmark 只是产品运营系统的一部分。真正难的不是做出一个分数,而是把分数、用户反馈、人工分析、A/B Test、模型选择、prompt 策略、工具流程和业务指标连成循环。

不要把产品失败归因给一个单一模型分数

Agent 产品失败时,很可能不是“模型不够强”这么简单。也许是任务定义错了,也许是 reward 太远,也许是交互不可信,也许是用户根本不想以这种方式完成任务。Benchmark 只能照亮一部分原因,不能替代产品归因。

本章小结

Benchmark 危机的本质不是分数失去意义,而是分数的解释边界变窄了。学术界仍需要 benchmark 定义问题,工业界则必须把 evaluation 放进真实产品闭环里。GUI Agent 的评价尤其困难,因为它面对长链路任务、主观体验和稀疏 reward;真正有价值的 infrastructure,是能不断试、不断归因、不断把用户反馈转化为系统改进的 infrastructure。

从广告入口到智力劳动:Agent 的商业模式重估

商业模式讨论从一个很经典的对照开始:互联网时代的大模式主要是广告、订阅和交易抽佣。广告卖的是注意力,订阅卖的是工具效率,抽佣卖的是交易撮合。Agent 作为入口时,会直接挑战广告,因为广告系统希望用户停留、浏览、点击,而一个好 Agent 恰恰应该减少用户停留时间,替用户完成筛选、比较和执行。

尚晏仪的判断很有启发性:互联网完成的是信息连接,广告费对应的是信息分发;Agent 输出的是智力劳动,而人类社会里智力劳动通常通过工资、服务费、中介费、佣金等形式付费。这就是为什么她更看好订阅和抽佣,而不是把 Agent 强行塞回广告逻辑。Agent 如果真的像秘书、顾问或代理,它的商业价值就应该来自节省时间、降低决策成本、撮合交易和承担行动结果,而不是让用户多看几秒内容。

旅行场景之所以在她的实践里成立,也正因为它天然存在 travel agent 这个历史角色。用户理解“代理”意味着什么,也能接受为规划、筛选、交易和服务付费。旅行还拥有明确交易闭环:酒店、机票、路线、签证、行程服务都能连接到抽佣或服务费。这和泛化的“超级入口”不同,后者看起来空间大,但 reward、履约和商业闭环都更模糊。

Agent 更像劳动力,而不是广告位

如果一个系统的价值是替用户思考、筛选、行动和承担流程成本,那么它更接近智力劳动。广告逻辑要求占用用户注意力,Agent 逻辑要求释放用户注意力。两者并非不能结合,但默认商业重心不同。

豆包手机的讨论,把这个问题推到更高一层。手机级 Agent 的优势非常清楚:手机掌握用户住址、偏好、账号、聊天、日程和生活习惯,因此最有机会成为生活秘书。但它同时会触碰现有 App 分发、广告推荐和交易入口的利益结构。换句话说,手机 Agent 技术上很合理,商业上却会改变很多人的饭碗。

这里有一个细节很值得抓住。尚晏仪说,如果用户直接告诉 Agent “我想去海岛”,这比短视频广告系统观察到用户在海岛视频上多停留几秒更强。因为前者是明确意图,后者只是行为推断。但明确意图不自动等于商业成功。Agent 还要把意图结构化,找到供应,比较选项,建立信任,并完成交易。广告系统擅长把模糊行为变成推荐,Agent 系统则必须把明确语言变成可靠行动。

从注意力经济到代理经济

模式 价值来源 与 Agent 的关系
广告 用户停留、浏览、点击、曝光。 好 Agent 会减少停留,因此天然冲突。
订阅 用户为效率、工具能力和可靠性付费。 适合高频、明确、可持续提效场景。
抽佣 平台撮合交易并参与履约。 适合旅行、采购、电商、招聘等有交易闭环的场景。
代理服务 用户为智力劳动、筛选、执行和责任边界付费。 最接近强 Agent 的长期形态。

本章小结

Agent 产品不能简单复刻互联网广告模式。它的价值更像智力劳动、代理服务和交易撮合。旅行之所以适合作为案例,是因为它既有传统代理角色,也有清晰交易闭环。手机 Agent 的潜力来自个人上下文,但真正难的是把上下文转成可信行动,同时处理与现有生态的商业冲突。

产品形态:从 Operator 到 UDA

如果说商业模式回答“Agent 怎么赚钱”,产品形态回答的就是“用户到底想用什么”。在这一点上,三位嘉宾并没有把 GUI Agent 想象成一个永远在屏幕上可见的机器人。谷雨想要的是生活秘书,能处理签证、日程、出行、杂事;尚晏仪想要的更像人生教练或一面镜子,能结合长期 context 帮她整理信息、做事和反馈。共同点是:他们都不执着于看 Agent 逐步点击,而是希望 Agent 围绕目标组织行动。

这正是 UDA 和 Unified Action Space 出现的语境。Deep Research、Coding、Browser Use、GUI Agent 被做成不同产品,是今天行业分工的结果,但用户的真实目标并不按这些产品边界切开。研究一个问题可能需要搜网页、读 PDF、写代码、整理文件、发消息;订一次旅行可能需要读聊天记录、查签证、比较酒店、调用地图、打开 OTA。用户的目标发生在同一个数字环境里,产品却要求用户在多个 Agent 之间搬运上下文,这显然不是终局。

Unified Action Space 的真正含义

Unified Action Space 不是“把所有按钮放进一个超级工具栏”,而是让 Agent 根据目标选择行动方式。能调 API 就不要模拟点击,能写脚本就不要逐页操作,能直接读文件就不要截图 OCR,必须进入 GUI 时再进入 GUI。统一的不是界面,而是围绕用户目标组织动作的能力。

这一点也解释了为什么“Computer-Using Agent”比“GUI Agent”更准确。GUI use 是 computer use 的子集。把 Agent 的能力绑定在视觉点击上,会让系统在很多场景里故意变笨。真正成熟的数字代理应该能在 API、代码、文件、浏览器、GUI、消息和用户确认之间切换,而不是把所有任务都翻译成鼠标操作。

生成式 UI 的讨论,则补上了另一半。尚晏仪并不完全看好“所有界面都由模型即时生成”,因为用户需要稳定性和可预测性。界面不只是信息容器,也是用户习惯和信任的结构。如果每次按钮位置、交互方式和结果展示都不一样,用户会不安,也很难形成熟练操作。更现实的方向可能是稳定组件加动态编排:基础操作、确认流程、权限边界保持稳定,具体结果呈现和任务辅助可以动态生成。

生成式 UI 的误区

生成式 UI 的价值不是让每次界面都变得陌生,而是让界面更贴近当前任务。若牺牲可预测性来追求“AI 感”,产品反而会变难用。对 Agent 来说,稳定的语义组件比炫目的即时生成更重要。

这里还有一个被上一版摘要低估的问题:隐私与信任。生活秘书式 Agent 越有用,就越需要访问住址、账号、聊天、日程、偏好、支付和身份信息。它可以本地化,可以联邦学习,可以像密码管理器一样建立信任边界,但无论哪种路线,都必须让用户知道什么被记住、什么可删除、什么动作需要确认。Agent 的产品形态不是 UI 形态这么简单,它本质上是权限形态。

本章小结

从 Operator 到 UDA,变化的是产品中心:从“展示 AI 如何操作”转向“围绕用户目标组织行动”。Unified Action Space 要解决能力碎片化和上下文搬运问题;Computer-Using Agent 要避免把所有任务降级成 GUI 点击;生成式 UI 要服务任务,而不是破坏可预测性。真正成熟的 Agent 产品,必须同时处理行动选择、用户确认和隐私边界。

长任务的悖论:Agent 越能跑,用户越容易累

这一期里最贴近日常体验的观察,是 context switching。尚晏仪说,她大量使用 Deep Research 和 coding agent 后,感到一个很强的负担:一个完整 prompt 丢出去,Agent 会运行很久;如果能力差,她不会用;如果能力好,她又不需要看中间输出。于是她不知道等待时该做什么,只好切到别的任务,几分钟后再回来检查,反而更累。

这个观察非常重要,因为它反驳了很多 Agent 产品的默认叙事。今天不少产品会把“能做一小时任务”当成卖点,但谷雨指出,如果同样质量能 30 秒完成,没人想等一小时。长任务能力当然有价值,但它是系统能力,不是用户体验本身。把慢包装成自主性,是一种很危险的产品叙事。

长任务能力不是长等待体验

用户想要的是任务被可靠完成,而不是被迫管理一个长时间运行的黑盒。Agent 能运行很久,说明它可能具备自主执行能力;但产品价值来自更少等待、更少检查、更少认知切换和更高结果质量。

对谈里还把这个问题拆成产品层和能力层。产品层可以通过中间状态、进度反馈、可中断机制和关键确认点改善体感。例如有的 coding agent 会持续告诉用户正在做什么,而有的系统几分钟没有输出,用户就会焦虑。但能力层更根本:Agent 找信息慢、工具使用不熟、决策路径绕、容易重复打开无用网页,说明它还不具备熟练人类那种快速判断信息价值的能力。

这也解释了为什么“写一个 prompt 让 Agent 跑六小时”只适合极少数用户。真实任务往往需要来回澄清和迭代。用户自己也未必能一次性写出完整需求。一个 Agent 如果拿着一句模糊需求跑很久,最后很可能产生大量看似努力、实则偏离的工作。真正的自主性不应是“长时间独自运行”,而应是“知道什么时候推进、什么时候停下、什么时候请求用户判断”。

长任务体验的四个设计点

  • 状态压缩:告诉用户当前在解决什么问题,而不是倾倒底层日志。
  • 检查点:在高风险分叉处请求确认,而不是最后一次性交付惊喜。
  • 可中断:允许用户改向、暂停、补充信息。
  • 差异摘要:完成后说明做了什么、改变了什么、还有什么不确定。

本章小结

Agent 产品的一个新矛盾是:能力越像“长时间自主执行”,越可能把用户推入频繁检查和上下文切换。产品层可以通过反馈设计缓解,但根本仍然是模型的 tool use、decision making 和任务判断能力。长期来看,用户不应被训练去适应低效 Agent;Agent 应该学会减少用户的认知负担。

持续学习与记忆:上线后的模型不该死掉

对谈后半段转向研究问题,密度明显变高。谢天宝提出,过去一年 GUI Agent 很多工作更像工程补坑:补数据、补 infra、补 evaluation、补环境。如果要寻找更有范式变化的方向,online learning、continual learning、test-time training 和 self-evolving 可能是一两年内的重要问题。

这个判断的背景是,今天的模型训练范式仍然很“离线”:pre-training、SFT、RL,然后上线推理。上线之后,模型基本不变。即使每天有海量用户交互,模型也不会实时从这些交互中获得能力增益。最多是日志回流、离线清洗、再训练、再部署。问题在于真实产品数据噪声极大,用户反馈稀疏而主观,直接变成训练数据并不容易。

Cursor 的 online RL 被拿出来作为一个信号:当产品场景有高频反馈、明确目标和快速部署 infrastructure 时,模型可以更快进入“产品运营即学习”的循环。但 GUI Agent 比 tab prediction 难得多。它面对的是长程任务、开放动作空间、多工具调用、稀疏 reward 和复杂失败归因。

上线后的模型不该只是推理工具

如果模型每天与大量用户交互,却不能从交互中更新知识、偏好、策略或记忆,那么推理过程就只是在消耗算力,而没有产生能力复利。持续学习的目标,是让真实交互成为系统资产,而不是日志垃圾。

Memory 讨论是这一段的核心。谷雨把它拆成三个问题:memory 怎么表示,怎么更新,怎么使用。这个拆法很关键,因为很多产品把 memory 简化成“把历史塞进上下文”或“做一个向量库”,但真正的长期记忆远不止检索。它要决定哪些信息值得长期保留,如何压缩,如何被用户编辑,如何被任务调用,如何避免旧信息污染新决策。

嘉宾们在参数记忆与离散记忆之间来回讨论。参数记忆更新成本高、可塑性差、难以审计;离散记忆如文本、SOP、workflow、knowledge graph 更可编辑、可检查,但也容易信息损耗、结构僵硬、context management 困难。尚晏仪倾向于很多知识要用文本表示,因为文本能进入组织协作;谢天宝则提醒,人脑本身不是纯符号系统,最终可能仍要回到 sub-symbolic 形式。这不是分歧,而是说明未来系统大概率是混合的。

Memory 的三问

问题 关键含义
如何表示 参数、文本、向量、SOP、workflow、knowledge graph 各有不同的可塑性、可审计性和调用成本。
如何更新 从交互中抽取什么,谁来确认,错误记忆如何删除,偏好变化如何覆盖旧记录。
如何使用 是用于检索、规划、个性化、权限控制、错误恢复,还是进入下一轮训练。

Test-time training 和 intrinsic reward 的讨论,则指向另一种可能:模型在推理过程中能否从自身分布、confidence、采样路径或交互结果里获得信号。这里的直觉是,模型在 pre-training 和 post-training 中已经吸收了大量知识,正确答案可能在分布里,只是 decoding 或搜索没有把它取出来。这个方向还远未成熟,但它把“推理”和“学习”的边界重新打开了。

长上下文不是长期记忆

把所有历史都塞进 context 会遇到成本、噪声、隐私、检索和一致性问题。长期记忆必须能压缩、能编辑、能遗忘、能审计;否则它不是资产,而是越来越重的认知债务。

本章小结

持续学习讨论把 GUI Agent 从一次性工具推向长期系统。上线后的模型若不能从交互中积累能力,就无法形成真正复利。Memory 不是聊天记录,至少包含表示、更新和使用三件事。未来更可能是参数记忆、离散记忆、workflow 与 test-time adaptation 的混合,而不是单一长上下文或单一向量库。

知识、符号与组织语义库

知识这一段看似哲学,其实非常工程。谷雨提到,知识至少可以粗略分成事实性知识、过程性知识和情景性知识。事实性知识回答“是什么”,过程性知识回答“怎么做”,情景性知识记录“发生过什么”。对 Agent 来说,最难的往往不是事实,而是流程和情景:如何申请签证、如何在企业系统里报销、如何按某个团队的惯例修代码、如何根据某个用户的偏好安排旅行。

这就引出 workflow 和 neuro-symbolic。让模型每一步都 plan,灵活但不稳定;把流程写成 code、SOP 或 RPA,稳定但死板。真正可用的系统,很可能要在两者之间来回转化:模型从交互中抽象出 documentation、SOP、workflow、knowledge graph,再在执行时用这些结构约束模型。符号结构不是旧时代遗物,它提供的是一致性、可审计性和组织协同。

Neuro-symbolic 的新语境

今天重新谈 neuro-symbolic,不是回到手写规则替代模型,而是让神经模型在开放环境中抽象出可编辑、可检查、可复用的符号结构。模型负责理解模糊现实,符号结构负责稳定流程与共享语义。

随后,概念漂移的讨论把问题从模型带回组织。AGI、Agent、Knowledge、AI-native 这些词会被人和模型反复使用,逐渐失去精确定义。更危险的是,模型会把流行词再生产给人,人再用这些词做决策,形成概念漂移循环。很多团队以为自己在讨论同一个概念,实际上每个人脑子里的对象都不同。

尚晏仪把这个问题说得很产品化:一家公司从零开始,最根本的是语义库。它认为“旅行”是什么,“订机票”是什么,“用户需求”是什么,这些定义会慢慢长出产品、流程和组织语言。如果这些定义不同步,组织协同就会变难;如果 AI 工具不断吸收和生成未经校准的内部文本,长期甚至会破坏组织的理智性。

热词会偷走判断力

“AGI”“Agent”“AI-native”“knowledge”这些词如果不被重新定义,就会从思考工具变成思考替代品。团队需要先问:我们在这个场景里到底指什么?成功标准是什么?它对应哪些动作、数据、流程和边界?

谢天宝补充说,symbolic 世界的好处就是定义清楚、一致性强。如果能够连接 symbolic 和 neural,很多一致性问题可以先在 symbolic 层解决,再压回 neural 或 subsymbolic 层。这句话与整场对谈的产品问题其实互相呼应:Agent 不是只要更强模型,也需要更清楚的行动边界、语义定义和组织记忆。

本章小结

知识不只是事实库,还包括流程、情景、偏好和组织语义。Agent 系统如果要长期进入真实组织,就必须处理 neuro-symbolic 的结合:模型负责理解和泛化,符号结构负责一致性和协同。概念漂移不是语言洁癖,而是产品和组织风险;语义库会成为 Agent 公司的一种基础设施。

Startup 护城河:速度之后留下什么

最后一段讨论 startup 护城河。它表面上是创业经验,实际仍然延续前面的“积累问题”。大家常说创业公司优势是快,但尚晏仪指出,快不是完整逻辑。快的价值在于更早积累某些东西,而那些东西才可能成为护城河。

她把 AI 产品的早期竞争放在模型能力拐点里理解。当基础模型突然突破某个临界点,小公司如果最快找到一个场景并推出产品,就能抢到真空期。这个真空期会带来声量、品牌和用户心智。AI 时代的传播成本结构也不同于传统互联网买量:如果一个体验真的突破用户心理防线,用户会自发传播。

但声量并不够。旅行行业的例子说明,产品体验之后会进入供应链竞争。一个 App 做得早、体验好,如果酒店库存不够、价格不稳、履约不强,用户最终还是会回到供应链更强的平台。长期竞争会变成综合战:产品、品牌、供应链、用户行为、组织效率和再投入能力共同形成正循环。

速度不是护城河,速度带来的资产才是

快本身不能防御后来者。快只有在转化为品牌、用户习惯、供应链、数据、社区、artifact 或组织能力时,才可能形成长期壁垒。否则,基础模型能力一扩散,功能领先就会被迅速抹平。

谢天宝用 Google 搜索做类比:如果整个互联网在技术上都可以被 index,为什么后来者难以追上 Google?可能因为先做带来了更完整的 index、更丰富的 query 行为、更快的产品迭代和更强的品牌习惯。这个类比提醒我们,先发优势不是玄学,而是一组具体 artifact 的积累。

他们也讨论了什么样的积累更不容易被大厂吃掉。单纯数据可能被更多算力和更多用户追平;但场景 artifact、AI-native 环境、供应链关系、社区信任、组织语义和产品细节更难复制。谷雨提到 NeoCognition 想升级数字环境本身,让环境变得更 AI-native;如果产出就是升级后的环境 artifact,那么早做的积累就是产品本身,而不是间接训练数据。

AI startup 的几类可积累资产

资产类型 为什么可能形成壁垒
品牌与心智 用户在新需求出现时先想到你,降低后续获客成本。
供应链与履约 在交易型场景中,体验最终要被库存、价格、服务和责任边界兑现。
场景 artifact 如果产出本身就是可复用环境、workflow 或知识结构,早做会沉淀直接资产。
社区与信任 小公司能靠更近的用户关系形成粘性,这种连接不易被纯功能替代。
组织语义库 对场景概念、流程和用户需求的长期校准,会提高迭代效率。

结尾处尚晏仪强调人与人的连接。一个产品如果只是工具,用户习惯可能迁移很快;但如果产品意味着用户进入某个社区、确认某种身份、和一群人建立关系,粘性会更强。这是小公司相对于大厂的重要机会:不是在所有资源上取胜,而是在具体人群里建立更密的信任网络。

本章小结

护城河不是一个静态名词,而是动态竞争中的复利结构。AI 初创公司早期的快,必须转化为能积累的资产;中后期的胜负,则取决于产品、供应链、社区、artifact 和组织效率是否能形成正循环。越容易被基础模型平台吸收的能力,越不适合作为长期壁垒;越贴近场景和用户关系的资产,越可能留下。

总结:GUI Agent 的下一站不是更会点屏幕

整场对谈最终可以收束成一个判断:GUI Agent 的下一站不是更会点屏幕,而是更会进入真实数字生活。进入真实世界之后,问题会立刻变厚:你如何评价它,如何收费,如何降低用户负担,如何使用上下文,如何持续学习,如何维护组织语义,如何形成可积累资产。这些问题没有一个能靠单次 demo 解决。

如果把三位嘉宾的观点压缩成一个结构,可以得到下面这张表:

问题意识 对谈中的核心判断
问题意识 对谈中的核心判断
GUI Agent 的本质 它不是“看屏幕并点击”的工具,而是把用户目标转成数字环境行动的代理系统。
Operator 的启示 它证明方向被认可,但也暴露“可见操作过程”不等于好产品体验。
Benchmark 的边界 Benchmark 是 signal,不是 final answer;真实产品需要用户反馈和商业结果校准。
Reward 的困难 最终结果往往太远,主观反馈又太噪,Agent 产品需要持续试验和失败归因。
商业模式 Agent 更像智力劳动和交易代理,订阅与抽佣可能比广告更自然。
UDA 与动作空间 Deep Research、Coding、Browser、GUI 不应被切碎,成熟 Agent 应围绕目标选择动作。
长任务体验 能跑很久不是价值本身,减少等待、检查和上下文切换才是体验改进方向。
生成式 UI 有价值的是稳定组件加动态编排,而不是每次重新发明界面。
持续学习 上线后的模型不应只是推理工具,真实交互应成为能力和记忆的来源。
Memory 关键是表示、更新、使用三件事,不是把历史塞进 context。
概念漂移 热词会污染组织判断,公司需要语义库来维持共同定义。
Startup 护城河 快不是护城河,快带来的品牌、供应链、社区、artifact 和组织能力才是。

这期节目最好的地方,是它没有停在“Agent 很快会改变一切”的粗糙乐观里。相反,它反复展示了一个现实:当 Agent 真要进入用户生活和公司流程时,技术能力只是第一层。后面还有评价机制、商业分配、交互负担、隐私边界、持续学习、语义一致性和组织复利。GUI Agent 的未来,可能不属于最会演示鼠标点击的系统,而属于最能把这些厚问题逐步组织起来的系统。

附录:关键判断索引

关键判断 所对应的问题意识
关键判断 所对应的问题意识
Deep Research、Coding、GUI Agent 不能完全单独做,因为它们都发生在同一台电脑和同一个目标空间里。 这是 Unified Action Space 的直觉起点。用户目标天然跨工具,产品边界不应强迫用户搬运上下文。
Operator 让方向被认可,但它未必是好产品。 这区分了技术证明和用户体验。能展示 AI 操作,不等于用户愿意看 AI 慢慢操作。
Benchmark 分数越来越像 signal,而不是终点。 它说明 evaluation 正从纯学术比较转向真实场景校准。分数仍有用,但解释边界必须更清楚。
旅行产品最终 reward 是卖出一张票,但这个 reward 离训练模型太远。 这揭示产业 Agent 的 reward 难题:最终结果明确,过程归因模糊,用户反馈主观且噪声很大。
Agent 输出的是智力劳动,不只是信息分发。 这是商业模式讨论的核心。广告卖注意力,Agent 更接近秘书、顾问、中介和代理服务。
能做一小时任务不是好事本身,如果同样质量 30 秒能完成,没人想等一小时。 这批评了长任务营销。自主执行能力必须转化为更低用户负担,而不是更长等待。
Memory 至少要问表示、更新、使用三件事。 这把长期记忆从“聊天记录”提升为系统设计问题。记忆必须可编辑、可遗忘、可回用。
热词会被模型和人反复传播,最后造成概念漂移。 这把 AI 时代的语言问题变成组织问题。没有语义库,公司会在流行词里失去共同判断。
快不是护城河,快之后积累了什么才是。 这是 startup 段落的核心。速度只有转化为品牌、供应链、社区、artifact 或组织能力时才有长期价值。