Ep97 Yshxmh Q Q4
\begingroup
\setlength{\parskip}{0pt} \renewcommand{\baselinestretch}{0.92}\selectfont
\endgroup
导读:这期季报的主线是什么
本节先建立整期的阅读框架。张小珺的“全球大模型季报”不是逐条新闻播报,而是用一组判断把季度变化压缩成技术路线图。2025 年 Q1 的关键变化,是李广密重新强调 Pre-training 的基础作用,同时把 Coding、Agent、Online Learning、模型公司战略分化和中美格局放在同一条 AGI 主线上讨论。
本期核心命题
广密的核心判断可以压缩成一句话:智能提升仍然是唯一主线,Pre-training 负责打开模型内在上限,Coding 提供最通用的数字行动环境,Agent 是新物种,Online Learning 可能是下一条范式级路线;产品公司和模型公司都必须围绕这些能力重排自己的位置。
视觉策略说明
这期视频是固定播客画面,没有投屏、白板或产品演示。正文只把封面用于来源识别;正文图像全部是自制概念图,用来解释技术路线、组织战略、产品壁垒和产业格局。这样比重复主持人/嘉宾画面更符合本仓库的播客处理标准。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{q1-model-map.png}
\caption{2025 Q1 大模型季报地图:Pre-training、Coding、Agent、Online Learning 与全球格局共同构成主线。自制概念图,依据 00:00:08--00:04:22 与全片内容整理。}
\end{figure}
读图:不要把季报读成新闻清单
图中 Q1 2025 位于中心,周围是 Pre-training、Coding、Agent、Online、产品和格局。读这张图时先看依赖关系:模型能力决定可用上限,Coding 和 Agent 提供行动环境,产品承接智能红利,公司格局则反映组织如何押注这些路线。
阅读路线
本节给出阅读路线。全片可以拆成六个问题:第一,为什么在大家转向应用和后训练时,广密重新强调 Pre-training?第二,为什么 Coding 不只是编程,而是 AGI 早期最重要的环境?第三,OpenAI 和 Anthropic 的战略分化说明了什么组织问题?第四,Agent 为什么被称为新物种?第五,Online Learning 是否可能改变训练范式?第六,模型、产品、资本和中美格局如何互相约束?
| 阅读问题 | 访谈中的材料 | 需要形成的判断 |
|---|---|---|
| 模型上限来自哪里 | Pre-training、Post-training、RL、合成数据 | 后训练可以塑形,但底座上限仍来自预训练与数据/算力/架构。 |
| Agent 如何落地 | Coding、computer use、tool use、long context | 数字环境提供可验证反馈,是 Agent 先落地的地方。 |
| 公司为何分化 | OpenAI、Anthropic、DeepSeek、Manus、Cursor | 战略不是口号,而是组织能力、产品入口和技术积累的表达。 |
| 产品壁垒在哪里 | Cloud、OS、容器、token 成本、盗火者 | 裸模型时代变弱,承接智能的环境和工作流变强。 |
| 下一范式是什么 | Online Learning、long-term memory、环境反馈 | 如果模型能边行动边学习,智能提升路径会再次改变。 |
重要边界:这是观点型季报,不是事实年鉴
本笔记把嘉宾观点整理成分析框架,但不把“AGI 两年内实现”“某公司组合权重”“某公司会失败”这类判断写成事实。另一个术语边界是:本期出现的 Perplexity 指 AI 搜索产品/公司,不是语言模型评测里的 perplexity(PPL,交叉熵取指数后得到的困惑度指标,可直觉理解为每个 token 的有效候选数)。
本章小结
这期季报的技术价值,在于它把 2025 年 Q1 的几条热门线索重新组织为一条 AGI 主线:模型上限、数字行动环境、Agent 产品化、在线学习范式、公司战略和地缘约束。后文会逐层展开。
Pre-training 叙事卷土重来
上一章说明整期的主线,本章进入第一个非共识。2024 年后,行业讨论大量转向 Post-training、RL、o 系列 reasoning model、Agent 应用和产品化,因此“Pre-training 的收益是否放缓”成为流行判断。广密在这里反向强调:Pre-training 还没有结束,并且仍然是打开新能力上限的最本质阶段。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{pretrain-posttrain-split.png}
\caption{Pre-training 与 Post-training:预训练决定内在上限,后训练和 RL 更像能力塑形。自制概念图,依据 00:04:22--00:11:56 对谈内容整理。}
\end{figure}
读图:上限和塑形不是同一个问题
左侧 Pre-training 负责大规模压缩世界知识、代码、推理模式和潜在能力;右侧 Post-training/RL 负责把能力对齐到任务、偏好、工具和安全边界。广密的判断是:后训练可以让模型“更会用已有能力”,但很难凭空创造底座没有的能力。
为什么说 Pre-training 仍然是非共识
本节拆解“非共识”的来源。共识的一面是,很多人看到 GPT-4 以后模型发布节奏变慢、数据墙讨论增多、RL/reasoning benchmark 快速刷分,于是认为底座预训练红利已经接近尾声。非共识的一面是,广密认为领先者阶段性放慢不等于范式结束;如果 OpenAI 的 Pre-training 团队动荡,外界可能会把一家公司的组织状态误读成整个路线的技术极限。
广密强调:领先者不等于路线本身
当某个领先公司在某条线上变慢,行业容易把它解释为“这条技术路线结束了”。但也可能只是组织能力、人才流动、资源分配和战略优先级改变。判断技术路线是否结束,必须看多家公司、多种架构和下一代模型的综合表现。
| 判断层次 | 容易误判的地方 | 更稳妥的读法 |
|---|---|---|
| 公司进度 | OpenAI 某阶段 Pre-training 放慢 | 可能是组织和战略问题,不等于全行业放慢。 |
| Benchmark | reasoning model 快速刷分 | 刷分很快,但不必然打开全部能力上限。 |
| 数据墙 | 高质量互联网文本变少 | 合成数据、代码环境、工具反馈可能改变数据供给。 |
| 应用热度 | Agent/应用更吸睛 | 应用爆发仍然依赖底座智能继续上拱。 |
Post-training 和 RL 能做什么,不能做什么
本节把 Post-training/RL 的角色讲清楚。广密不是否定后训练,而是反对把后训练当作底座能力的替代品。后训练可以让模型更遵循指令、更安全、更擅长特定工具、更会在数学和代码任务上展开思考;RL 可以通过奖励信号激发模型已有的推理模式。但如果 base model 的知识、表征和行动先验不足,后训练容易像“小学生刷题”:短期分数上升,长期天花板有限。
术语消化:Pre-training、Post-training、RL
| 术语 | 机制 | 本期中的作用 |
|---|---|---|
| Pre-training | 在大规模数据上训练 base model,学习通用表征和预测能力 | 决定模型内在上限,是广密重新强调的主线。 |
| Post-training | 用指令、偏好、安全和任务数据塑形模型行为 | 提高可用性,但主要激发和组织已有能力。 |
| RL | 通过奖励信号优化行为,常用于 reasoning、代码、工具任务 | 能强化探索和解题模式,但依赖底座能力。 |
| Synthetic Data | 由模型或系统生成的训练数据 | 可能缓解数据墙,尤其是高价值 CoT/工具轨迹。 |
常见误区:把“更会考试”误认为“更聪明”
Reasoning model 在数学、代码和 benchmark 上进步很快,但这不等于它已经获得了所有新能力。需要区分“已有能力被更好地调用”和“底层表征真的升级”。
合成数据和训练框架的难点
本节进一步解释为什么 Pre-training 还可能继续。广密提到,高价值 CoT 数据、RL 生成数据和环境中的 sampling 可能重新进入预训练阶段,缓解 data bottleneck。但这不是简单把生成文本塞回训练集:它要求训练框架把 inference、sampling、reward、filtering 和 pre-training 更紧密地结合起来。换句话说,未来的预训练可能不再是静态语料训练,而是带有探索、生成和反馈的数据工厂。
实践经验:数据墙不只靠“更多网页”解决
如果未来的高价值数据来自模型探索、代码执行、工具调用和环境反馈,那么数据工程会从“清洗互联网文本”转向“运行环境、采样轨迹、评价结果、回灌训练”。这也是 Agent 和 Online Learning 会回到模型训练主线的原因。
本章小结
Pre-training 叙事回归,不是说后训练不重要,而是说后训练不能替代底座上限。2025 年 Q1 的关键问题,是哪些公司仍然能持续扩大 base model 能力,哪些公司只是把已有能力包装成更好看的产品和 benchmark。
Coding:最通用的赛博世界环境
前面讨论模型上限,本章进入行动环境。广密把 Coding 称为“最通用赛博世界的环境”和“模型的手”。这句话不是说 AGI 等于写代码,而是说代码环境有三个优势:它可操作、可验证、可组合。模型写代码、运行代码、读测试反馈、调用工具和修改文件,本质上是在一个可控数字世界里行动。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{coding-as-cyber-environment.png}
\caption{Coding 是赛博世界环境:代码不是单一技能,而是模型行动、验证和改造数字世界的入口。自制概念图,依据 00:11:56--00:19:55 对谈内容整理。}
\end{figure}
读图:Coding 的意义在环境,不在语法
从 Code 到 Tools、Tests、Agent、AGI Path,图里强调的是闭环:模型能产生动作,动作能改变环境,环境能给出反馈。相比聊天问答,代码环境更容易定义成功和失败,因此更适合训练和评估 Agent。
为什么 Coding 比搜索和推荐更底层
本节解释广密的类比。搜索引擎把网页组织成可检索环境,推荐引擎把内容组织成可消费环境;Coding 则把数字经济活动组织成可修改环境。模型不仅能找到信息,还能创建文件、调用 API、运行程序、写自动化脚本、测试结果、修复错误。这个“能改世界”的属性,让 Coding 比单纯信息分发更接近 Agent 的身体。
课堂提示:代码是模型在数字世界中的动作空间
在强化学习语言里,环境提供状态,动作改变状态,反馈评价动作。Coding 环境把这些要素做得很清楚:repo、文件、测试、报错、CI、API、浏览器和数据库都能成为状态与反馈。
| 环境 | 主要动作 | 对 Agent 的价值 |
|---|---|---|
| 搜索 | 查询、筛选、总结 | 提供信息,但改变世界能力弱。 |
| 推荐 | 匹配、排序、消费 | 更偏流量分发,不是通用行动环境。 |
| Coding | 读写代码、运行测试、调用工具、修复错误 | 可操作、可验证、可组合,是数字行动环境。 |
| Science/Gaming | 实验、模拟、策略搜索 | 也强,但通用性和数据规模暂时不如 Coding。 |
Computer use 与模型的手
本节连接 Coding 和 computer use。广密提到 Manus 让外界第一次强烈感受到 tool use/computer use 的 magic moment,而 Anthropic 的模型能力是背后重要基础。这里要注意一个层次关系:产品公司可以把能力包装成可感知体验,但底层模型必须先具备操作工具、理解 UI、读写文件和保持长任务状态的能力。
从“会说”到“会做”的分水岭
ChatGPT 时代的模型主要让人感到“它懂”;Agent 时代的模型要让人感到“它能完成任务”。这个转变需要工具、权限、记忆、错误恢复和结果验证,不只是更流畅的回答。
Coding 会成为最终产品形态吗
本节回答张小珺的追问。广密的判断更接近:Coding 是技术引擎,不一定是最终产品表达。推荐引擎的最终产品可以是短视频信息流;搜索引擎的最终产品是搜索框和答案页;Coding 作为引擎,未来可能在 IDE、自动化办公、个人 Agent、企业工作流、科学计算和软件工厂中呈现。对普通用户来说,最终界面可能淡化“编程”,但内部仍然是代码和工具执行。
不要把开发者工具市场等同于 Coding 引擎市场
Cursor、Claude Code、IDE 插件是最早爆发的形态,因为开发者有高动机和清晰反馈。但如果 Coding 真是数字经济的通用引擎,它的最终产品不会只服务程序员,而会进入办公、研究、运营、设计、商业分析和个人自动化。
本章小结
Coding 的战略意义,在于它为模型提供了可行动、可验证、可扩展的数字世界。它是 Agent 先落地的主战场,也是检验模型是否从聊天走向行动的关键环境。
OpenAI vs Anthropic:战略是组织能力的表达
上一章说明 Coding 为什么重要,本章看公司战略。广密把 OpenAI 和 Anthropic 的分化解释为“不同组织能力的表达”。两家公司同宗同源,但 2025 年 Q1 的押注明显不同:OpenAI 更强地押注 o 系列 reasoning model、ChatGPT 消费入口和平台野心;Anthropic 更聚焦 base model、Coding、Agentic workflow 和企业市场。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{openai-anthropic-strategy.png}
\caption{OpenAI vs Anthropic:战略差异是组织能力、价值观和产品路径的表达。自制概念图,依据 00:19:55--00:30:18 对谈内容整理。}
\end{figure}
读图:公司战略不是 PPT,而是谁有能力做什么
左边 OpenAI 强调模型、消费入口和 o 系列;右边 Anthropic 强调安全、企业、Coding 和 Agentic 工作流。广密的分析不是简单排名,而是在问:组织里的核心人才、产品压力和领导层关注点,会怎样改变技术路线。
o 系列、消费入口和 Pre-training 的资源竞争
本节拆解 OpenAI 的内部张力。o 系列在数学和代码 benchmark 上进步很快,很容易获得资源和组织注意力;ChatGPT 用户增长和消费互联网化也会消耗管理层精力。与此同时,Pre-training 团队人才流动和组织调整可能削弱底座训练节奏。广密担心的是,OpenAI 过早走向消费互联网公司,会让“智能上限”主线被流量和产品增长拉偏。
课堂提示:流量很重要,但不等于智能主线
如果一个模型公司过早被消费入口牵引,它可能在用户增长、内容、品牌和生态上取得优势,但也可能降低对底座训练、长期研究和能力上限的专注。这个判断需要持续观察,而不能从单季度产品热度下结论。
Anthropic 的 Coding 机会
本节看 Anthropic。广密对 Anthropic 的信心来自两个方面:一是它可能仍然在 Pre-training base model 上有强组织能力;二是 Claude/Sonnet 在 Coding 和 Agentic workflow 中已经形成开发者投票。Cursor 等产品大量调用 Claude 系列模型,说明 Coding 不是边缘能力,而是能产生真实 token 消耗和商业付费的场景。
实践经验:开发者投票比口号更硬
如果开发者长期愿意为某个模型的 Coding 能力付费,而且工具产品把它设为默认模型,这说明模型能力已经进入真实生产力链条。Coding 场景的价值,不只在 benchmark,而在真实代码、真实报错和真实交付。
硅谷认知分歧:智能重要还是流量重要
本节把公司分化上升为认知分歧。一个阵营认为智能上限仍然是一切的根,应该继续押注 base model、Pre-training、Coding、Agent 和 AI for Science;另一个阵营更看重消费入口、用户增长、默认入口和平台生态。实际世界不会非此即彼,但不同公司会因为组织、资本和产品压力在两边摆动。
| 路线 | 关注指标 | 风险 |
|---|---|---|
| 智能优先 | base model、Coding、Agent、科学能力、长期上限 | 短期产品和收入可能慢。 |
| 流量优先 | 用户规模、入口、消费产品、默认选择 | 可能稀释研究注意力。 |
| 平台优先 | API、工具协议、生态、企业工作流 | 需要同时维持能力和开发者信任。 |
本章小结
OpenAI 与 Anthropic 的分化说明,AI 公司竞争不是单纯模型参数竞争,而是组织能力、路线信仰、产品入口、客户结构和商业压力的综合表达。后面的 AGI roadmap 必须在这个背景下阅读。
AGI 路线图:从 ChatGPT 山脚到行动主峰
前面几章分别讲模型上限、行动环境和公司分化,本章进入广密作为“AGI 原教旨主义者”的路线图。他认为智能提升是唯一主线,智能本身就是最大应用。ChatGPT 只是山脚,后面还有 Coding、Coding Agent、General Agent、AI for Science、Robotics 等多个山头。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{agi-roadmap-mountain.png}
\caption{AGI 路线山脊:ChatGPT 只是山脚,后续主峰依次进入更强行动环境。自制概念图,依据 00:30:18--00:43:00 对谈内容整理。}
\end{figure}
读图:主峰从对话转向行动
从 ChatGPT 到 Coding、Coding Agent、General Agent、AI4Science、Robotics,路线越来越接近真实行动与真实反馈。聊天证明模型能表达智能;Agent 和科学证明模型能使用智能改变环境。
智能本身就是最大应用
本节解释“智能本身就是最大应用”。这句话不是否认具体产品,而是强调所有产品都在承接模型能力外溢。ChatGPT、Cursor、Manus、Perplexity 等产品之所以出现,是因为底座模型能力突然足够强,产品公司用一个环境或容器把它变成用户可感知的工作流。应用公司不是凭空创造智能,而是在合适时间承接研究溢出的红利。
应用公司的任务:构建智能容器
如果底座模型是水位上升,应用公司的任务不是假装自己造了海,而是建好港口、管道和水龙头。容器越贴近真实任务、反馈越清晰、成本越可控,越有机会沉淀壁垒。
AI for Science 和 Robotics 的位置
本节看路线图后段。广密认为 2026/2027 年可能出现 AI for Science 的爆发,因为科学问题有高价值、可验证反馈和巨大市场空间。Robotics 更接近物理世界,但他对当前 robotics foundation model 的做法保持怀疑:如果只是把 VLM/VLA 套到机器人上,而没有真正解决行动、数据、反馈和本体问题,就不够本质。
Robotics 不应被过早神话
机器人是 AGI 路线的重要终局,但它的数据、硬件、物理反馈和安全约束比数字世界复杂得多。相比先在 Coding 和 Agent 环境里获得稳定反馈,直接押物理世界可能会更慢、更贵、更难验证。
烟雾弹与主线:文生图该放在哪里
本节处理一个容易争议的判断。广密提到文生图可能是 OpenAI 的烟雾弹,意思不是图像生成没有价值,而是它可能吸引过多注意力,却不一定代表智能主线的最高优先级。对于 AGI 原教旨主义者,图像生成、短视频、消费级爆点都要回到同一个问题:它是否推动模型更聪明、更能行动、更能学习?
课堂提示:用“是否增加行动能力”筛选 AI 热点
一个 AI 热点可以很商业、很酷、很传播,但如果它不增加模型理解世界、操作工具、获得反馈或迁移能力的深度,它就未必是 AGI 主线。季报的价值正在于用主线过滤热点。
本章小结
广密的 AGI roadmap 把 ChatGPT 放在山脚,把行动环境和科学发现放在后续主峰。这个路线图未必准确预测时间,但它提供了一个判断框架:越能让模型行动、验证、学习和改变世界,越靠近主线。
智能的衡量:生存、探索、自动化与 token 经济
上一章给出路线图,本章回答张小珺追问的“智能本质是什么”。广密没有给出严格定义,而是用三个关键词描述人类智能进化:生存、探索、自动化。放到模型上,智能进步可以看作模型在环境中更好地适应、发现新策略、自动完成任务,并用更低或更有效的 token 成本完成更复杂工作。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{intelligence-measurement.png}
\caption{智能进步如何衡量:从生存、探索、自动化,到 token 消耗和任务闭环。自制概念图,依据 00:43:00--00:48:03 对谈内容整理。}
\end{figure}
读图:智能不是一个 benchmark 数字
图中有生存、探索、自动化、Token、任务和反馈。读这张图时要注意:benchmark 是测量切片,真实智能更像任务闭环。模型能否独立探索、选择工具、消耗合理 token、完成可验证任务,是更接近 Agent 时代的衡量方式。
Token 消耗为什么重要
本节解释 token 经济。访谈中提到,一个普通 chatbot 对话可能消耗几千 token,一个搜索或研究任务可能消耗更多,而 Manus 平均任务可能达到几十万 token。数字不必被当作精确统计,关键是趋势:Agent 任务比聊天任务消耗更多推理、上下文、工具调用和中间状态。产品定价如果仍然照搬 SaaS 月费,可能会和真实计算成本错配。
实践经验:AI 产品定价必须理解 token 成本
传统 SaaS 的边际成本较低,而 Agent 可能每次任务都消耗大量 token、工具调用和外部计算。如果产品按固定月费卖,但用户大量运行高成本任务,商业模式会被 token 经济反噬。
从 long context 到 long-term memory
本节为后面的 Agent 做铺垫。广密提到,AGI 接下来的 milestone 可能是 long-term memory,它会取代单纯 long context。Long context 是把更多材料塞进当前窗口;long-term memory 是模型能持续积累、选择、更新和调用历史经验。前者解决“这一轮看得更多”,后者解决“长期越用越懂、越做越会”。
术语消化:Long Context 与 Long-term Memory
| 概念 | 含义 | Agent 中的作用 |
|---|---|---|
| Long Context | 单次推理窗口可容纳更长材料 | 让模型一次性读更多文件、网页和历史。 |
| Long-term Memory | 跨会话、跨任务保存和更新经验 | 让模型形成用户、项目和环境的持续状态。 |
| Task State | 当前任务的目标、步骤、错误和产物 | 决定 Agent 能否长程执行。 |
| Experience Reuse | 把过去成功/失败迁移到新任务 | 是 Online Learning 的前置能力之一。 |
本章小结
智能衡量不能只看单题分数。Agent 时代更重要的是任务闭环、环境反馈、token 成本、长期记忆和经验复用。这些变量共同决定模型是否真的从“会答”走向“会做”。
Agent 是新物种
上一章讨论智能衡量,本章进入 Agent。广密把 Agent 称为“新物种”,是因为它不再只是语言输出系统,而是能感知环境、保持任务状态、调用工具、执行行动、读取反馈并继续推进目标的系统。越接近 AGI,Agent 的变化可能越像阶段跃迁,而不是线性增强。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{agent-three-capabilities.png}
\caption{Agent 三个关键能力:Long context reasoning、Tool use、Instruction following 共同支撑新物种。自制概念图,依据 00:48:03--00:55:49 对谈内容整理。}
\end{figure}
读图:三个能力缺一不可
Long Context 让 Agent 保持长任务状态,Tool Use 让它改变外部世界,Instruction Following 让它不偏离用户目标。Memory、Feedback 和 Autonomy 是进一步升级:Agent 不只执行当前命令,还能积累经验和主动探索。
Long context reasoning:长任务状态
本节先看长上下文推理。Agent 任务往往不是一句问答,而是多步骤、多文件、多工具、多轮错误恢复。模型需要记住目标、约束、已尝试路径、失败原因、当前产物和下一步。长上下文只是最低门槛,真正难点是对上下文做选择、压缩和更新。
长上下文不是万能记忆
把所有内容塞进窗口,会带来成本、噪声和注意力稀释。好的 Agent 需要结构化任务状态、外部文件系统、检索、摘要和长期记忆,而不是无限堆 token。
Tool use:从语言到行动
本节看工具使用。工具调用让模型能搜索、浏览网页、读写文件、运行代码、调用 API、操作 UI。它把模型从“产生建议”推向“执行任务”。但工具使用也带来安全、权限、错误恢复和可审计性问题。越强的 Agent,越需要明确的边界和可回滚机制。
Agent 产品的基本契约
用户给目标,Agent 拆任务并调用工具;系统必须提供权限控制、进度可见性、错误解释、人工接管和结果验证。没有这些,Agent 越强,风险越大。
Instruction following:复杂目标的服从
本节解释第三个能力。Agent 不只是会用工具,还要在长程任务中持续服从用户目标:哪些事情不能做,哪些资源不能用,什么结果才算完成,什么时候需要确认,如何处理冲突指令。复杂 instruction following 是 Agent 从玩具 demo 走向生产系统的关键。
| 能力 | 失败模式 | 产品要求 |
|---|---|---|
| 长上下文推理 | 忘记目标、重复尝试、误用旧信息 | 任务状态和外部记忆。 |
| 工具使用 | 调错工具、破坏文件、权限越界 | 沙盒、确认、审计和回滚。 |
| 指令遵循 | 被中途信息带偏、忽略约束 | 明确优先级和冲突处理。 |
| 反馈学习 | 同错再犯、无法迁移经验 | 保存失败、复盘和评测闭环。 |
本章小结
Agent 是新物种,不是因为它有一个新名字,而是因为它把语言模型接入环境、工具、记忆和行动闭环。真正的竞争会从“回答质量”转向“任务完成质量”。
Online Learning:可能的范式级路线
前面几章说明 Agent 为什么需要环境和反馈,本章进入 Online Learning。广密认为,如果未来还有范式级新路线,Online Learning 是候选之一。它的核心不是训练完模型再部署,而是让模型在环境中自主探索、获得反馈、更新经验,甚至进一步更新权重或长期记忆。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{online-learning-loop.png}
\caption{Online Learning 闭环:模型在环境里自主探索、获得反馈、更新能力。自制概念图,依据 00:55:49--01:02:45 对谈内容整理。}
\end{figure}
读图:Online Learning 把数据生产放进使用过程
从 Environment 到 Action、Reward、Update、Memory/Weights,图里强调的是持续循环。传统训练更像离线学习;Online Learning 则让模型在真实或仿真环境中边做边学。Agent 越多,潜在反馈数据越多。
为什么 Online Learning 可能是下一范式
本节说明其吸引力。Pre-training 主要依赖已有语料,Post-training/RL 依赖整理好的任务和奖励;Online Learning 则可能从模型自己的行动中产生新数据。对于 Coding、游戏、科学实验、网页操作等环境,模型可以尝试、失败、修复、总结,再把经验回流。它把数据瓶颈从“找更多旧数据”转向“创造更高价值的新经验”。
核心转变:从数据集到环境
如果 Online Learning 成立,训练中心会从静态数据集转向可交互环境。谁拥有环境、任务、奖励、评测和真实用户反馈,谁就可能拥有新的数据飞轮。
对 GPU 和 NVIDIA 叙事的影响
本节回应访谈中的产业追问。Online Learning 不一定削弱 GPU 需求,反而可能改变 GPU 需求结构:不仅要训练,还要大规模采样、执行、多轮推理、评测和回放。推理和训练可能更紧密交织,infra 需要同时支持在线 rollout、缓存、环境模拟和安全审计。NVIDIA 的叙事也不只是卖训练卡,而是围绕推理、仿真、机器人、数据中心和软件栈扩展。
术语消化:Online Learning 相关基础设施
| 术语 | 含义 | 为什么重要 |
|---|---|---|
| Rollout | Agent 在环境中执行一段轨迹 | 产生可评价的新经验。 |
| Reward | 评价任务成功与质量的信号 | 决定模型会学到什么。 |
| Replay | 回放成功/失败轨迹用于训练或分析 | 帮助从错误中学习。 |
| Simulation | 可控环境或仿真世界 | 降低真实试错成本。 |
| Memory Update | 把经验写入长期记忆或外部状态 | 让模型越用越懂。 |
风险:在线学习如何不被 reward hack
本节补充约束。Online Learning 的风险在于,模型可能学会钻奖励、污染记忆、放大偏见、绕过安全边界,或者从错误反馈中学到错误策略。因此真正可用的在线学习系统必须有分层权限、沙盒环境、可回滚状态、离线评测、人工审计和安全过滤。
Online Learning 不能等同于“让模型自己随便学”
持续学习如果没有边界,会带来记忆污染、目标漂移和安全问题。高质量 Online Learning 更像受控实验系统:任务清楚、奖励可审、失败可追踪、更新可回滚。
本章小结
Online Learning 的想象力在于,它把 Agent 的使用过程变成数据生产过程。它也带来新的基础设施和安全问题。下一阶段,谁能稳定运行环境、奖励和反馈闭环,谁就可能获得新的模型改进路径。
模型与产品:从裸模型到 Cloud/OS/容器
上一章讨论 Online Learning,本章转向商业和产品。广密认为裸模型发布的时代可能逐渐弱化,壁垒会更多来自 Cloud、OS、生态和工作流容器。原因是模型能力会被追赶、开源冲击和 API 化,但用户每天在哪个环境里完成任务,哪个系统拥有状态、数据、权限和支付关系,才会形成长期壁垒。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{model-product-moat.png}
\caption{模型与产品的壁垒:裸模型发布时代弱化,Cloud/OS/生态成为防线。自制概念图,依据 01:02:45--01:15:11 对谈内容整理。}
\end{figure}
读图:模型强不等于产品强
左侧 Model 强调能力上限和成本效率,右侧 Product/OS 强调入口、工作流、生态、计费和数据回流。读这张图时要抓住一点:模型是发动机,产品是道路、仪表盘、收费系统和驾驶体验。
20 美元定价与 SaaS 复制问题
本节看定价。访谈追问为什么很多 AI 产品定价接近 20 美元,是否只是复制 SaaS。广密的隐含问题是:AI 产品的边际成本与传统 SaaS 不同。一个复杂 Agent 任务可能消耗大量 token 和工具调用,如果按低价包月无节制使用,就会出现毛利压力。因此未来定价可能更接近用量、任务价值、企业席位和算力消耗的混合模型。
定价不是 UI 问题,是计算经济问题
如果产品把高成本 Agent 任务包装成低价无限用,短期可能获得增长,长期会被推理成本和用户滥用压垮。AI 产品经理必须理解 token、缓存、工具调用和任务价值。
模型会吃掉产品吗
本节讨论产品公司最担心的问题。广密把本质问题概括为 feature system vs learning system。传统产品的 feature 可以被模型公司复制,但如果产品公司沉淀的是环境、数据、工作流、用户状态、权限体系和反馈闭环,就不容易被一个新模型版本直接吃掉。反过来,如果产品只是给模型套壳,没有独特环境和数据,确实容易被底座模型吞掉。
应用壁垒的判断标准
看一个 AI 应用是否有壁垒,不要只看界面和 prompt,而要看它是否拥有:真实任务入口、用户长期状态、可验证反馈、专有工作流、成本控制、数据回流和替换成本。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{fire-thieves.png}
\caption{模型盗火者:Perplexity、Cursor、Manus 把前沿模型能力搬进具体工作流。自制概念图,依据 01:02:45--01:15:11 对谈内容整理。}
\end{figure}
读图:盗火者的价值在容器
Perplexity 把模型能力放进搜索/研究,Cursor 放进编程环境,Manus 放进通用执行。它们不是自己训练最强底座模型,而是把模型能力放进用户愿意付费、愿意反复使用、能产生反馈的容器。
投资人应该看什么
本节把产品问题转成投资判断。广密提到理想组合和公司权重,但本笔记不把它当投资建议。更重要的是分析框架:底座模型公司看能力上限、成本曲线和组织稳定性;应用公司看是否抓住模型能力外溢窗口、是否沉淀工作流、是否有真实收入和可控成本;基础设施公司看是否控制环境、推理、训练、数据和部署关键环节。
课堂提示:科技投资不是押热词
访谈最后强调“创造”而不是“混圈”。在 AI 投资里,这意味着要理解技术路线和价值链:谁提升智能,谁承接智能,谁提供环境,谁掌握反馈,谁只是叙事套利。
本章小结
模型与产品的关系不是谁吃掉谁这么简单。强模型会压缩薄产品空间,但也会创造新容器机会。产品壁垒来自环境、状态、反馈、成本和用户任务,而不是简单套一个聊天框。
全球模型公司与 AI 产品公司格局
前面讨论产品壁垒,本章进入公司格局。2025 年 Q1 的公司图谱里,OpenAI、Anthropic、Google、DeepSeek、ByteDance、Mira/Thinking Machines、SSI、Cursor、Manus 等角色被放在同一张竞争图中。广密的讨论带有强主观判断,但它可以帮助我们理解不同类型公司在 AI 价值链中的位置。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{model-company-portfolio.png}
\caption{全球模型公司格局:不同公司押注模型、产品、生态、开源和资本结构。自制概念图,依据 01:15:11--01:54:32 对谈内容整理。}
\end{figure}
读图:不要把所有 AI 公司放在同一赛道
Anthropic 更偏企业/Coding,OpenAI 同时押模型和产品,ByteDance 有产品和流量,DeepSeek 代表开源效率,Cursor/Manus 是应用执行层。不同位置的成功条件完全不同,不能只用同一个 benchmark 排名。
GPT-4.5、GPT-5 与 OpenAI 风险
本节梳理 OpenAI 讨论。访谈提到 GPT-4.5 是否领先、GPT-5 为什么跳票、OpenAI 是否有失败风险、OpenAI 与微软关系、以及对 Anthropic MCP 协议的支持。课程化整理时应把这些看成几个变量:底座模型节奏、reasoning model 节奏、产品用户增长、云合作结构、协议生态和组织稳定性。
不要用单个发布判断一家公司
OpenAI 的风险和优势都很大:它有最强品牌、用户入口和产品心智,也有组织复杂化、云关系、研究节奏和商业化压力。单个模型版本不能决定长期胜负。
DeepSeek、开源效率与中国信号
本节看 DeepSeek。访谈把 DeepSeek 放在 Q1 的明星位置,强调它对全球模型格局和开源效率叙事的冲击。它的价值不只是“模型便宜”,而是说明中国团队可以通过工程效率、架构选择、训练 recipe 和开源传播影响全球认知。广密甚至用投资组合语言表达对 DeepSeek 的高权重偏好,这反映了他对开源效率路线的重视。
DeepSeek 的信号意义
DeepSeek 让行业重新评估中国团队在 frontier 模型、训练效率、开源生态和全球开发者影响力上的位置。它不是单纯的价格故事,而是能力、成本、开放和传播叠加的故事。
Manus、Perplexity、Cursor:执行力强的产品公司
本节看应用公司。访谈里 Manus、Perplexity、Cursor 被称为“模型盗火者”,甚至被调侃为“套壳之王”。这个说法表面上尖锐,但真正重点在执行力:它们把模型公司尚未产品化的能力快速转成用户体验。Perplexity 把搜索/研究重新组织,Cursor 把 Coding 变成高频工作流,Manus 把通用 Agent 的体验推到公众面前。
术语消化:模型公司、应用公司、基础设施公司
| 公司类型 | 核心资产 | 主要风险 |
|---|---|---|
| 模型公司 | base model、训练 infra、研究人才、API/平台 | 训练成本高、组织复杂、产品压力大。 |
| 应用公司 | 用户入口、工作流、任务状态、反馈数据 | 被模型公司复制或被成本压垮。 |
| 基础设施公司 | 推理、训练、环境、工具协议、云资源 | 需要跟随模型和应用需求变化。 |
| 开源模型公司 | 成本效率、社区、透明度、生态扩散 | 商业化和持续训练资金压力。 |
MCP、协议和生态位
本节补足协议层。访谈提到 OpenAI 支持 Anthropic 的 MCP 协议,这说明 Agent 生态不只竞争模型,还竞争工具连接方式、上下文传递方式和安全边界。协议如果成为事实标准,会把模型、工具、企业系统和开发者生态连接起来。模型公司既要防止被协议商品化,又要避免自己被生态孤立。
Agent 生态的下一层竞争是协议
浏览器、IDE、企业 SaaS、文件系统和数据库都可能变成 Agent 工具。谁定义模型如何安全地读取上下文、调用工具和返回结果,谁就在定义 Agent 生态的交通规则。
本章小结
全球 AI 公司格局不能只按“谁的模型最强”排序。底座模型、开源效率、应用执行、协议生态、云合作和资本结构都在重排位置。2025 Q1 的真正变化,是模型能力开始更明确地流向 Coding、Agent 和工作流产品。
中美格局:如何跨越地缘封锁
上一章讨论公司图谱,本章收束到中美格局。访谈最后强调,科技投资和科技创业不能靠混圈子,还是要靠创造。地缘封锁会限制算力、资本、市场和合作,但不会自动决定胜负;真正穿越限制的,是技术创造力、工程执行、产品洞察、开源传播和产业链组织能力。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{china-us-geofence.png}
\caption{中美 AI 格局:地缘封锁下,技术创造力比混圈更重要。自制概念图,依据 01:54:32--02:01:11 对谈内容整理。}
\end{figure}
读图:优势不同,不代表只能防守
美国侧有算力、frontier lab、资本和全球产品入口,中国侧有工程速度、应用场景、开源效率和产业链执行力。地缘封锁会制造摩擦,但也会迫使团队在效率、工程和本地生态上找新路径。
中国团队的机会在哪里
本节把机会拆成四类。第一是效率机会:用更少算力做出可竞争模型和产品。第二是应用机会:中国有大量数字化业务、内容、电商、工业和硬件场景。第三是开源机会:通过开放模型和工具获得全球开发者分发。第四是产业链机会:AI 与硬件、机器人、汽车、消费电子结合时,中国供应链和工程速度会变得重要。
实践经验:封锁时代更需要可验证创造
越是外部约束强,越不能只讲叙事。团队需要拿出可验证的模型、代码、产品、收入、效率曲线和开发者采用。真正的全球影响力来自创造物,而不是圈层背书。
地缘约束下的风险
本节同样要保留风险意识。中国团队面临算力供应、海外合规、品牌信任、企业销售、支付和生态入口等限制;美国团队也面临成本、监管、产品泡沫、资本预期和组织复杂化。中美格局不是单方面压制,也不是单方面反超,而是两种创新系统在不同约束下寻找突破。
| 维度 | 美国优势/风险 | 中国优势/风险 |
|---|---|---|
| 算力 | 供应和云生态强,但成本和监管压力高 | 受出口管制约束,需要效率和替代方案。 |
| 模型 | frontier lab 密集 | 开源效率和工程 recipe 可能成为突破口。 |
| 产品 | 全球入口和企业客户强 | 本地场景丰富,但全球化品牌更难。 |
| 产业链 | 软件生态强 | 硬件、汽车、机器人和制造链条强。 |
本章小结
中美 AI 格局的核心,不是简单乐观或悲观,而是看谁能在约束下创造更好的模型、产品、环境和生态。对 AI/互联网方向的长期追踪,应关注可验证产物,而不是只关注叙事热度。
总结与延伸
本节把全片压缩成一个可复用框架。2025 年 Q1 的大模型季报可以理解为“智能主线回归”:不要被单个产品爆点或单个公司发布带偏,而要持续追问模型上限从哪里来、模型如何行动、行动如何产生反馈、反馈如何回到学习、产品如何承接智能、公司如何把组织能力转成战略。
六个核心结论
第一,Pre-training 仍是底座能力上限的关键,不应因为后训练热度而被忽视。第二,Coding 是模型最早获得可验证行动能力的赛博环境。第三,Agent 是从语言输出到任务执行的系统跃迁。第四,Online Learning 可能把使用过程变成新数据生产过程。第五,应用壁垒来自环境、状态、反馈和成本控制。第六,中美竞争最终要看可验证创造,而不是圈层叙事。
本期术语速查表
本节给出速查,方便把这期和前后张小珺 AI/互联网队列连接起来。EP97 与 EP101 的 Agent 产品、EP102 的多模态路线、EP106/109 的具身智能、EP110 的 Agent 技术报告、EP127/136 的大模型季报有明显连续性。
| 术语/公司 | 本期含义 | 后续观察方式 |
|---|---|---|
| Pre-training | 打开 base model 内在上限 | 看下一代模型是否出现新能力,而非只刷分。 |
| Reasoning/RL | 强化推理和任务表现 | 看是否能转化为真实任务完成。 |
| Coding | 数字行动环境与模型的手 | 看开发者付费、工具调用和端到端任务成功率。 |
| Agent | 感知、工具、记忆和执行闭环 | 看长任务、错误恢复和可控性。 |
| Online Learning | 使用中产生反馈并持续学习 | 看环境、奖励、记忆和安全审计是否成熟。 |
| DeepSeek | 开源效率和中国模型信号 | 看能力、成本、生态和持续迭代。 |
| Manus/Cursor | 模型能力的产品容器 | 看工作流壁垒、收入和 token 经济。 |
后续观察问题
本节把季报转成后续跟踪清单。读者可以用这些问题判断 2025 年后续几个季度,广密这套判断是否继续成立。
- 下一代 base model 是否会出现明显新能力,还是主要靠 post-training 刷 benchmark?
- Coding 场景的领先模型是否继续由 Anthropic/Claude 系列主导,还是 OpenAI、Google、DeepSeek 等会重新追上?
- Agent 产品是否能从演示走向稳定交付,尤其是在长任务、权限、安全和成本上是否过关?
- Online Learning 是否会出现可复现的工程范式,而不是停留在概念层?
- 模型公司与应用公司之间,谁更能掌握用户状态、任务环境和反馈数据?
- DeepSeek 式开源效率路线是否能持续扩散到更多模型和工具生态?
- 中美 AI 竞争中,算力限制是否会被算法效率、工程优化和开源生态部分抵消?
拓展阅读
- 对 Agent 产品和应用创业感兴趣,可对照 EP101 YouWare、EP110 Agent 技术报告、EP139 Agent 技术史。
- 对多模态和世界模型感兴趣,可对照 EP102 张祥雨访谈、EP133 谢赛宁访谈。
- 对具身智能和机器人主线感兴趣,可对照 EP106 王鹤、EP109 光轮智能、VLA 投屏版
eiQFomOuCJs。 - 对大模型季报连续性,可对照 EP127、EP136 以及视频描述中列出的 2023/2024 年季度回顾。