Ep97 Yshxmh Q Q4

\begingroup

\setlength{\parskip}{0pt} \renewcommand{\baselinestretch}{0.92}\selectfont

\endgroup

导读：这期季报的主线是什么

本节先建立整期的阅读框架。张小珺的“全球大模型季报”不是逐条新闻播报，而是用一组判断把季度变化压缩成技术路线图。2025 年 Q1 的关键变化，是李广密重新强调 Pre-training 的基础作用，同时把 Coding、Agent、Online Learning、模型公司战略分化和中美格局放在同一条 AGI 主线上讨论。

本期核心命题

广密的核心判断可以压缩成一句话：智能提升仍然是唯一主线，Pre-training 负责打开模型内在上限，Coding 提供最通用的数字行动环境，Agent 是新物种，Online Learning 可能是下一条范式级路线；产品公司和模型公司都必须围绕这些能力重排自己的位置。

视觉策略说明

这期视频是固定播客画面，没有投屏、白板或产品演示。正文只把封面用于来源识别；正文图像全部是自制概念图，用来解释技术路线、组织战略、产品壁垒和产业格局。这样比重复主持人/嘉宾画面更符合本仓库的播客处理标准。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{q1-model-map.png}
\caption{2025 Q1 大模型季报地图：Pre-training、Coding、Agent、Online Learning 与全球格局共同构成主线。自制概念图，依据 00:00:08--00:04:22 与全片内容整理。}
\end{figure}

读图：不要把季报读成新闻清单

图中 Q1 2025 位于中心，周围是 Pre-training、Coding、Agent、Online、产品和格局。读这张图时先看依赖关系：模型能力决定可用上限，Coding 和 Agent 提供行动环境，产品承接智能红利，公司格局则反映组织如何押注这些路线。

阅读路线

本节给出阅读路线。全片可以拆成六个问题：第一，为什么在大家转向应用和后训练时，广密重新强调 Pre-training？第二，为什么 Coding 不只是编程，而是 AGI 早期最重要的环境？第三，OpenAI 和 Anthropic 的战略分化说明了什么组织问题？第四，Agent 为什么被称为新物种？第五，Online Learning 是否可能改变训练范式？第六，模型、产品、资本和中美格局如何互相约束？

阅读问题	访谈中的材料	需要形成的判断
模型上限来自哪里	Pre-training、Post-training、RL、合成数据	后训练可以塑形，但底座上限仍来自预训练与数据/算力/架构。
Agent 如何落地	Coding、computer use、tool use、long context	数字环境提供可验证反馈，是 Agent 先落地的地方。
公司为何分化	OpenAI、Anthropic、DeepSeek、Manus、Cursor	战略不是口号，而是组织能力、产品入口和技术积累的表达。
产品壁垒在哪里	Cloud、OS、容器、token 成本、盗火者	裸模型时代变弱，承接智能的环境和工作流变强。
下一范式是什么	Online Learning、long-term memory、环境反馈	如果模型能边行动边学习，智能提升路径会再次改变。

重要边界：这是观点型季报，不是事实年鉴

本笔记把嘉宾观点整理成分析框架，但不把“AGI 两年内实现”“某公司组合权重”“某公司会失败”这类判断写成事实。另一个术语边界是：本期出现的 Perplexity 指 AI 搜索产品/公司，不是语言模型评测里的 perplexity（PPL，交叉熵取指数后得到的困惑度指标，可直觉理解为每个 token 的有效候选数）。

本章小结

这期季报的技术价值，在于它把 2025 年 Q1 的几条热门线索重新组织为一条 AGI 主线：模型上限、数字行动环境、Agent 产品化、在线学习范式、公司战略和地缘约束。后文会逐层展开。

Pre-training 叙事卷土重来

上一章说明整期的主线，本章进入第一个非共识。2024 年后，行业讨论大量转向 Post-training、RL、o 系列 reasoning model、Agent 应用和产品化，因此“Pre-training 的收益是否放缓”成为流行判断。广密在这里反向强调：Pre-training 还没有结束，并且仍然是打开新能力上限的最本质阶段。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{pretrain-posttrain-split.png}
\caption{Pre-training 与 Post-training：预训练决定内在上限，后训练和 RL 更像能力塑形。自制概念图，依据 00:04:22--00:11:56 对谈内容整理。}
\end{figure}

读图：上限和塑形不是同一个问题

左侧 Pre-training 负责大规模压缩世界知识、代码、推理模式和潜在能力；右侧 Post-training/RL 负责把能力对齐到任务、偏好、工具和安全边界。广密的判断是：后训练可以让模型“更会用已有能力”，但很难凭空创造底座没有的能力。

为什么说 Pre-training 仍然是非共识

本节拆解“非共识”的来源。共识的一面是，很多人看到 GPT-4 以后模型发布节奏变慢、数据墙讨论增多、RL/reasoning benchmark 快速刷分，于是认为底座预训练红利已经接近尾声。非共识的一面是，广密认为领先者阶段性放慢不等于范式结束；如果 OpenAI 的 Pre-training 团队动荡，外界可能会把一家公司的组织状态误读成整个路线的技术极限。

广密强调：领先者不等于路线本身

当某个领先公司在某条线上变慢，行业容易把它解释为“这条技术路线结束了”。但也可能只是组织能力、人才流动、资源分配和战略优先级改变。判断技术路线是否结束，必须看多家公司、多种架构和下一代模型的综合表现。

判断层次	容易误判的地方	更稳妥的读法
公司进度	OpenAI 某阶段 Pre-training 放慢	可能是组织和战略问题，不等于全行业放慢。
Benchmark	reasoning model 快速刷分	刷分很快，但不必然打开全部能力上限。
数据墙	高质量互联网文本变少	合成数据、代码环境、工具反馈可能改变数据供给。
应用热度	Agent/应用更吸睛	应用爆发仍然依赖底座智能继续上拱。

Post-training 和 RL 能做什么，不能做什么

本节把 Post-training/RL 的角色讲清楚。广密不是否定后训练，而是反对把后训练当作底座能力的替代品。后训练可以让模型更遵循指令、更安全、更擅长特定工具、更会在数学和代码任务上展开思考；RL 可以通过奖励信号激发模型已有的推理模式。但如果 base model 的知识、表征和行动先验不足，后训练容易像“小学生刷题”：短期分数上升，长期天花板有限。

术语消化：Pre-training、Post-training、RL

术语	机制	本期中的作用
Pre-training	在大规模数据上训练 base model，学习通用表征和预测能力	决定模型内在上限，是广密重新强调的主线。
Post-training	用指令、偏好、安全和任务数据塑形模型行为	提高可用性，但主要激发和组织已有能力。
RL	通过奖励信号优化行为，常用于 reasoning、代码、工具任务	能强化探索和解题模式，但依赖底座能力。
Synthetic Data	由模型或系统生成的训练数据	可能缓解数据墙，尤其是高价值 CoT/工具轨迹。

常见误区：把“更会考试”误认为“更聪明”

Reasoning model 在数学、代码和 benchmark 上进步很快，但这不等于它已经获得了所有新能力。需要区分“已有能力被更好地调用”和“底层表征真的升级”。

合成数据和训练框架的难点

本节进一步解释为什么 Pre-training 还可能继续。广密提到，高价值 CoT 数据、RL 生成数据和环境中的 sampling 可能重新进入预训练阶段，缓解 data bottleneck。但这不是简单把生成文本塞回训练集：它要求训练框架把 inference、sampling、reward、filtering 和 pre-training 更紧密地结合起来。换句话说，未来的预训练可能不再是静态语料训练，而是带有探索、生成和反馈的数据工厂。

实践经验：数据墙不只靠“更多网页”解决

如果未来的高价值数据来自模型探索、代码执行、工具调用和环境反馈，那么数据工程会从“清洗互联网文本”转向“运行环境、采样轨迹、评价结果、回灌训练”。这也是 Agent 和 Online Learning 会回到模型训练主线的原因。

本章小结

Pre-training 叙事回归，不是说后训练不重要，而是说后训练不能替代底座上限。2025 年 Q1 的关键问题，是哪些公司仍然能持续扩大 base model 能力，哪些公司只是把已有能力包装成更好看的产品和 benchmark。

Coding：最通用的赛博世界环境

前面讨论模型上限，本章进入行动环境。广密把 Coding 称为“最通用赛博世界的环境”和“模型的手”。这句话不是说 AGI 等于写代码，而是说代码环境有三个优势：它可操作、可验证、可组合。模型写代码、运行代码、读测试反馈、调用工具和修改文件，本质上是在一个可控数字世界里行动。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{coding-as-cyber-environment.png}
\caption{Coding 是赛博世界环境：代码不是单一技能，而是模型行动、验证和改造数字世界的入口。自制概念图，依据 00:11:56--00:19:55 对谈内容整理。}
\end{figure}

读图：Coding 的意义在环境，不在语法

从 Code 到 Tools、Tests、Agent、AGI Path，图里强调的是闭环：模型能产生动作，动作能改变环境，环境能给出反馈。相比聊天问答，代码环境更容易定义成功和失败，因此更适合训练和评估 Agent。

为什么 Coding 比搜索和推荐更底层

本节解释广密的类比。搜索引擎把网页组织成可检索环境，推荐引擎把内容组织成可消费环境；Coding 则把数字经济活动组织成可修改环境。模型不仅能找到信息，还能创建文件、调用 API、运行程序、写自动化脚本、测试结果、修复错误。这个“能改世界”的属性，让 Coding 比单纯信息分发更接近 Agent 的身体。

课堂提示：代码是模型在数字世界中的动作空间

在强化学习语言里，环境提供状态，动作改变状态，反馈评价动作。Coding 环境把这些要素做得很清楚：repo、文件、测试、报错、CI、API、浏览器和数据库都能成为状态与反馈。

环境	主要动作	对 Agent 的价值
搜索	查询、筛选、总结	提供信息，但改变世界能力弱。
推荐	匹配、排序、消费	更偏流量分发，不是通用行动环境。
Coding	读写代码、运行测试、调用工具、修复错误	可操作、可验证、可组合，是数字行动环境。
Science/Gaming	实验、模拟、策略搜索	也强，但通用性和数据规模暂时不如 Coding。

Computer use 与模型的手

本节连接 Coding 和 computer use。广密提到 Manus 让外界第一次强烈感受到 tool use/computer use 的 magic moment，而 Anthropic 的模型能力是背后重要基础。这里要注意一个层次关系：产品公司可以把能力包装成可感知体验，但底层模型必须先具备操作工具、理解 UI、读写文件和保持长任务状态的能力。

从“会说”到“会做”的分水岭

ChatGPT 时代的模型主要让人感到“它懂”；Agent 时代的模型要让人感到“它能完成任务”。这个转变需要工具、权限、记忆、错误恢复和结果验证，不只是更流畅的回答。

Coding 会成为最终产品形态吗

本节回答张小珺的追问。广密的判断更接近：Coding 是技术引擎，不一定是最终产品表达。推荐引擎的最终产品可以是短视频信息流；搜索引擎的最终产品是搜索框和答案页；Coding 作为引擎，未来可能在 IDE、自动化办公、个人 Agent、企业工作流、科学计算和软件工厂中呈现。对普通用户来说，最终界面可能淡化“编程”，但内部仍然是代码和工具执行。

不要把开发者工具市场等同于 Coding 引擎市场

Cursor、Claude Code、IDE 插件是最早爆发的形态，因为开发者有高动机和清晰反馈。但如果 Coding 真是数字经济的通用引擎，它的最终产品不会只服务程序员，而会进入办公、研究、运营、设计、商业分析和个人自动化。

本章小结

Coding 的战略意义，在于它为模型提供了可行动、可验证、可扩展的数字世界。它是 Agent 先落地的主战场，也是检验模型是否从聊天走向行动的关键环境。

OpenAI vs Anthropic：战略是组织能力的表达

上一章说明 Coding 为什么重要，本章看公司战略。广密把 OpenAI 和 Anthropic 的分化解释为“不同组织能力的表达”。两家公司同宗同源，但 2025 年 Q1 的押注明显不同：OpenAI 更强地押注 o 系列 reasoning model、ChatGPT 消费入口和平台野心；Anthropic 更聚焦 base model、Coding、Agentic workflow 和企业市场。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{openai-anthropic-strategy.png}
\caption{OpenAI vs Anthropic：战略差异是组织能力、价值观和产品路径的表达。自制概念图，依据 00:19:55--00:30:18 对谈内容整理。}
\end{figure}

读图：公司战略不是 PPT，而是谁有能力做什么

左边 OpenAI 强调模型、消费入口和 o 系列；右边 Anthropic 强调安全、企业、Coding 和 Agentic 工作流。广密的分析不是简单排名，而是在问：组织里的核心人才、产品压力和领导层关注点，会怎样改变技术路线。

o 系列、消费入口和 Pre-training 的资源竞争

本节拆解 OpenAI 的内部张力。o 系列在数学和代码 benchmark 上进步很快，很容易获得资源和组织注意力；ChatGPT 用户增长和消费互联网化也会消耗管理层精力。与此同时，Pre-training 团队人才流动和组织调整可能削弱底座训练节奏。广密担心的是，OpenAI 过早走向消费互联网公司，会让“智能上限”主线被流量和产品增长拉偏。

课堂提示：流量很重要，但不等于智能主线

如果一个模型公司过早被消费入口牵引，它可能在用户增长、内容、品牌和生态上取得优势，但也可能降低对底座训练、长期研究和能力上限的专注。这个判断需要持续观察，而不能从单季度产品热度下结论。

Anthropic 的 Coding 机会

本节看 Anthropic。广密对 Anthropic 的信心来自两个方面：一是它可能仍然在 Pre-training base model 上有强组织能力；二是 Claude/Sonnet 在 Coding 和 Agentic workflow 中已经形成开发者投票。Cursor 等产品大量调用 Claude 系列模型，说明 Coding 不是边缘能力，而是能产生真实 token 消耗和商业付费的场景。

实践经验：开发者投票比口号更硬

如果开发者长期愿意为某个模型的 Coding 能力付费，而且工具产品把它设为默认模型，这说明模型能力已经进入真实生产力链条。Coding 场景的价值，不只在 benchmark，而在真实代码、真实报错和真实交付。

硅谷认知分歧：智能重要还是流量重要

本节把公司分化上升为认知分歧。一个阵营认为智能上限仍然是一切的根，应该继续押注 base model、Pre-training、Coding、Agent 和 AI for Science；另一个阵营更看重消费入口、用户增长、默认入口和平台生态。实际世界不会非此即彼，但不同公司会因为组织、资本和产品压力在两边摆动。

路线	关注指标	风险
智能优先	base model、Coding、Agent、科学能力、长期上限	短期产品和收入可能慢。
流量优先	用户规模、入口、消费产品、默认选择	可能稀释研究注意力。
平台优先	API、工具协议、生态、企业工作流	需要同时维持能力和开发者信任。

本章小结

OpenAI 与 Anthropic 的分化说明，AI 公司竞争不是单纯模型参数竞争，而是组织能力、路线信仰、产品入口、客户结构和商业压力的综合表达。后面的 AGI roadmap 必须在这个背景下阅读。

AGI 路线图：从 ChatGPT 山脚到行动主峰

前面几章分别讲模型上限、行动环境和公司分化，本章进入广密作为“AGI 原教旨主义者”的路线图。他认为智能提升是唯一主线，智能本身就是最大应用。ChatGPT 只是山脚，后面还有 Coding、Coding Agent、General Agent、AI for Science、Robotics 等多个山头。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{agi-roadmap-mountain.png}
\caption{AGI 路线山脊：ChatGPT 只是山脚，后续主峰依次进入更强行动环境。自制概念图，依据 00:30:18--00:43:00 对谈内容整理。}
\end{figure}

读图：主峰从对话转向行动

从 ChatGPT 到 Coding、Coding Agent、General Agent、AI4Science、Robotics，路线越来越接近真实行动与真实反馈。聊天证明模型能表达智能；Agent 和科学证明模型能使用智能改变环境。

智能本身就是最大应用

本节解释“智能本身就是最大应用”。这句话不是否认具体产品，而是强调所有产品都在承接模型能力外溢。ChatGPT、Cursor、Manus、Perplexity 等产品之所以出现，是因为底座模型能力突然足够强，产品公司用一个环境或容器把它变成用户可感知的工作流。应用公司不是凭空创造智能，而是在合适时间承接研究溢出的红利。

应用公司的任务：构建智能容器

如果底座模型是水位上升，应用公司的任务不是假装自己造了海，而是建好港口、管道和水龙头。容器越贴近真实任务、反馈越清晰、成本越可控，越有机会沉淀壁垒。

AI for Science 和 Robotics 的位置

本节看路线图后段。广密认为 2026/2027 年可能出现 AI for Science 的爆发，因为科学问题有高价值、可验证反馈和巨大市场空间。Robotics 更接近物理世界，但他对当前 robotics foundation model 的做法保持怀疑：如果只是把 VLM/VLA 套到机器人上，而没有真正解决行动、数据、反馈和本体问题，就不够本质。

Robotics 不应被过早神话

机器人是 AGI 路线的重要终局，但它的数据、硬件、物理反馈和安全约束比数字世界复杂得多。相比先在 Coding 和 Agent 环境里获得稳定反馈，直接押物理世界可能会更慢、更贵、更难验证。

烟雾弹与主线：文生图该放在哪里

本节处理一个容易争议的判断。广密提到文生图可能是 OpenAI 的烟雾弹，意思不是图像生成没有价值，而是它可能吸引过多注意力，却不一定代表智能主线的最高优先级。对于 AGI 原教旨主义者，图像生成、短视频、消费级爆点都要回到同一个问题：它是否推动模型更聪明、更能行动、更能学习？

课堂提示：用“是否增加行动能力”筛选 AI 热点

一个 AI 热点可以很商业、很酷、很传播，但如果它不增加模型理解世界、操作工具、获得反馈或迁移能力的深度，它就未必是 AGI 主线。季报的价值正在于用主线过滤热点。

本章小结

广密的 AGI roadmap 把 ChatGPT 放在山脚，把行动环境和科学发现放在后续主峰。这个路线图未必准确预测时间，但它提供了一个判断框架：越能让模型行动、验证、学习和改变世界，越靠近主线。

智能的衡量：生存、探索、自动化与 token 经济

上一章给出路线图，本章回答张小珺追问的“智能本质是什么”。广密没有给出严格定义，而是用三个关键词描述人类智能进化：生存、探索、自动化。放到模型上，智能进步可以看作模型在环境中更好地适应、发现新策略、自动完成任务，并用更低或更有效的 token 成本完成更复杂工作。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{intelligence-measurement.png}
\caption{智能进步如何衡量：从生存、探索、自动化，到 token 消耗和任务闭环。自制概念图，依据 00:43:00--00:48:03 对谈内容整理。}
\end{figure}

读图：智能不是一个 benchmark 数字

图中有生存、探索、自动化、Token、任务和反馈。读这张图时要注意：benchmark 是测量切片，真实智能更像任务闭环。模型能否独立探索、选择工具、消耗合理 token、完成可验证任务，是更接近 Agent 时代的衡量方式。

Token 消耗为什么重要

本节解释 token 经济。访谈中提到，一个普通 chatbot 对话可能消耗几千 token，一个搜索或研究任务可能消耗更多，而 Manus 平均任务可能达到几十万 token。数字不必被当作精确统计，关键是趋势：Agent 任务比聊天任务消耗更多推理、上下文、工具调用和中间状态。产品定价如果仍然照搬 SaaS 月费，可能会和真实计算成本错配。

实践经验：AI 产品定价必须理解 token 成本

传统 SaaS 的边际成本较低，而 Agent 可能每次任务都消耗大量 token、工具调用和外部计算。如果产品按固定月费卖，但用户大量运行高成本任务，商业模式会被 token 经济反噬。

从 long context 到 long-term memory

本节为后面的 Agent 做铺垫。广密提到，AGI 接下来的 milestone 可能是 long-term memory，它会取代单纯 long context。Long context 是把更多材料塞进当前窗口；long-term memory 是模型能持续积累、选择、更新和调用历史经验。前者解决“这一轮看得更多”，后者解决“长期越用越懂、越做越会”。

术语消化：Long Context 与 Long-term Memory

概念	含义	Agent 中的作用
Long Context	单次推理窗口可容纳更长材料	让模型一次性读更多文件、网页和历史。
Long-term Memory	跨会话、跨任务保存和更新经验	让模型形成用户、项目和环境的持续状态。
Task State	当前任务的目标、步骤、错误和产物	决定 Agent 能否长程执行。
Experience Reuse	把过去成功/失败迁移到新任务	是 Online Learning 的前置能力之一。

本章小结

智能衡量不能只看单题分数。Agent 时代更重要的是任务闭环、环境反馈、token 成本、长期记忆和经验复用。这些变量共同决定模型是否真的从“会答”走向“会做”。

Agent 是新物种

上一章讨论智能衡量，本章进入 Agent。广密把 Agent 称为“新物种”，是因为它不再只是语言输出系统，而是能感知环境、保持任务状态、调用工具、执行行动、读取反馈并继续推进目标的系统。越接近 AGI，Agent 的变化可能越像阶段跃迁，而不是线性增强。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{agent-three-capabilities.png}
\caption{Agent 三个关键能力：Long context reasoning、Tool use、Instruction following 共同支撑新物种。自制概念图，依据 00:48:03--00:55:49 对谈内容整理。}
\end{figure}

读图：三个能力缺一不可

Long Context 让 Agent 保持长任务状态，Tool Use 让它改变外部世界，Instruction Following 让它不偏离用户目标。Memory、Feedback 和 Autonomy 是进一步升级：Agent 不只执行当前命令，还能积累经验和主动探索。

Long context reasoning：长任务状态

本节先看长上下文推理。Agent 任务往往不是一句问答，而是多步骤、多文件、多工具、多轮错误恢复。模型需要记住目标、约束、已尝试路径、失败原因、当前产物和下一步。长上下文只是最低门槛，真正难点是对上下文做选择、压缩和更新。

长上下文不是万能记忆

把所有内容塞进窗口，会带来成本、噪声和注意力稀释。好的 Agent 需要结构化任务状态、外部文件系统、检索、摘要和长期记忆，而不是无限堆 token。

Tool use：从语言到行动

本节看工具使用。工具调用让模型能搜索、浏览网页、读写文件、运行代码、调用 API、操作 UI。它把模型从“产生建议”推向“执行任务”。但工具使用也带来安全、权限、错误恢复和可审计性问题。越强的 Agent，越需要明确的边界和可回滚机制。

Agent 产品的基本契约

用户给目标，Agent 拆任务并调用工具；系统必须提供权限控制、进度可见性、错误解释、人工接管和结果验证。没有这些，Agent 越强，风险越大。

Instruction following：复杂目标的服从

本节解释第三个能力。Agent 不只是会用工具，还要在长程任务中持续服从用户目标：哪些事情不能做，哪些资源不能用，什么结果才算完成，什么时候需要确认，如何处理冲突指令。复杂 instruction following 是 Agent 从玩具 demo 走向生产系统的关键。

能力	失败模式	产品要求
长上下文推理	忘记目标、重复尝试、误用旧信息	任务状态和外部记忆。
工具使用	调错工具、破坏文件、权限越界	沙盒、确认、审计和回滚。
指令遵循	被中途信息带偏、忽略约束	明确优先级和冲突处理。
反馈学习	同错再犯、无法迁移经验	保存失败、复盘和评测闭环。

本章小结

Agent 是新物种，不是因为它有一个新名字，而是因为它把语言模型接入环境、工具、记忆和行动闭环。真正的竞争会从“回答质量”转向“任务完成质量”。

Online Learning：可能的范式级路线

前面几章说明 Agent 为什么需要环境和反馈，本章进入 Online Learning。广密认为，如果未来还有范式级新路线，Online Learning 是候选之一。它的核心不是训练完模型再部署，而是让模型在环境中自主探索、获得反馈、更新经验，甚至进一步更新权重或长期记忆。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{online-learning-loop.png}
\caption{Online Learning 闭环：模型在环境里自主探索、获得反馈、更新能力。自制概念图，依据 00:55:49--01:02:45 对谈内容整理。}
\end{figure}

读图：Online Learning 把数据生产放进使用过程

从 Environment 到 Action、Reward、Update、Memory/Weights，图里强调的是持续循环。传统训练更像离线学习；Online Learning 则让模型在真实或仿真环境中边做边学。Agent 越多，潜在反馈数据越多。

为什么 Online Learning 可能是下一范式

本节说明其吸引力。Pre-training 主要依赖已有语料，Post-training/RL 依赖整理好的任务和奖励；Online Learning 则可能从模型自己的行动中产生新数据。对于 Coding、游戏、科学实验、网页操作等环境，模型可以尝试、失败、修复、总结，再把经验回流。它把数据瓶颈从“找更多旧数据”转向“创造更高价值的新经验”。

核心转变：从数据集到环境

如果 Online Learning 成立，训练中心会从静态数据集转向可交互环境。谁拥有环境、任务、奖励、评测和真实用户反馈，谁就可能拥有新的数据飞轮。

对 GPU 和 NVIDIA 叙事的影响

本节回应访谈中的产业追问。Online Learning 不一定削弱 GPU 需求，反而可能改变 GPU 需求结构：不仅要训练，还要大规模采样、执行、多轮推理、评测和回放。推理和训练可能更紧密交织，infra 需要同时支持在线 rollout、缓存、环境模拟和安全审计。NVIDIA 的叙事也不只是卖训练卡，而是围绕推理、仿真、机器人、数据中心和软件栈扩展。

术语消化：Online Learning 相关基础设施

术语	含义	为什么重要
Rollout	Agent 在环境中执行一段轨迹	产生可评价的新经验。
Reward	评价任务成功与质量的信号	决定模型会学到什么。
Replay	回放成功/失败轨迹用于训练或分析	帮助从错误中学习。
Simulation	可控环境或仿真世界	降低真实试错成本。
Memory Update	把经验写入长期记忆或外部状态	让模型越用越懂。

风险：在线学习如何不被 reward hack

本节补充约束。Online Learning 的风险在于，模型可能学会钻奖励、污染记忆、放大偏见、绕过安全边界，或者从错误反馈中学到错误策略。因此真正可用的在线学习系统必须有分层权限、沙盒环境、可回滚状态、离线评测、人工审计和安全过滤。

Online Learning 不能等同于“让模型自己随便学”

持续学习如果没有边界，会带来记忆污染、目标漂移和安全问题。高质量 Online Learning 更像受控实验系统：任务清楚、奖励可审、失败可追踪、更新可回滚。

本章小结

Online Learning 的想象力在于，它把 Agent 的使用过程变成数据生产过程。它也带来新的基础设施和安全问题。下一阶段，谁能稳定运行环境、奖励和反馈闭环，谁就可能获得新的模型改进路径。

模型与产品：从裸模型到 Cloud/OS/容器

上一章讨论 Online Learning，本章转向商业和产品。广密认为裸模型发布的时代可能逐渐弱化，壁垒会更多来自 Cloud、OS、生态和工作流容器。原因是模型能力会被追赶、开源冲击和 API 化，但用户每天在哪个环境里完成任务，哪个系统拥有状态、数据、权限和支付关系，才会形成长期壁垒。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{model-product-moat.png}
\caption{模型与产品的壁垒：裸模型发布时代弱化，Cloud/OS/生态成为防线。自制概念图，依据 01:02:45--01:15:11 对谈内容整理。}
\end{figure}

读图：模型强不等于产品强

左侧 Model 强调能力上限和成本效率，右侧 Product/OS 强调入口、工作流、生态、计费和数据回流。读这张图时要抓住一点：模型是发动机，产品是道路、仪表盘、收费系统和驾驶体验。

20 美元定价与 SaaS 复制问题

本节看定价。访谈追问为什么很多 AI 产品定价接近 20 美元，是否只是复制 SaaS。广密的隐含问题是：AI 产品的边际成本与传统 SaaS 不同。一个复杂 Agent 任务可能消耗大量 token 和工具调用，如果按低价包月无节制使用，就会出现毛利压力。因此未来定价可能更接近用量、任务价值、企业席位和算力消耗的混合模型。

定价不是 UI 问题，是计算经济问题

如果产品把高成本 Agent 任务包装成低价无限用，短期可能获得增长，长期会被推理成本和用户滥用压垮。AI 产品经理必须理解 token、缓存、工具调用和任务价值。

模型会吃掉产品吗

本节讨论产品公司最担心的问题。广密把本质问题概括为 feature system vs learning system。传统产品的 feature 可以被模型公司复制，但如果产品公司沉淀的是环境、数据、工作流、用户状态、权限体系和反馈闭环，就不容易被一个新模型版本直接吃掉。反过来，如果产品只是给模型套壳，没有独特环境和数据，确实容易被底座模型吞掉。

应用壁垒的判断标准

看一个 AI 应用是否有壁垒，不要只看界面和 prompt，而要看它是否拥有：真实任务入口、用户长期状态、可验证反馈、专有工作流、成本控制、数据回流和替换成本。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{fire-thieves.png}
\caption{模型盗火者：Perplexity、Cursor、Manus 把前沿模型能力搬进具体工作流。自制概念图，依据 01:02:45--01:15:11 对谈内容整理。}
\end{figure}

读图：盗火者的价值在容器

Perplexity 把模型能力放进搜索/研究，Cursor 放进编程环境，Manus 放进通用执行。它们不是自己训练最强底座模型，而是把模型能力放进用户愿意付费、愿意反复使用、能产生反馈的容器。

投资人应该看什么

本节把产品问题转成投资判断。广密提到理想组合和公司权重，但本笔记不把它当投资建议。更重要的是分析框架：底座模型公司看能力上限、成本曲线和组织稳定性；应用公司看是否抓住模型能力外溢窗口、是否沉淀工作流、是否有真实收入和可控成本；基础设施公司看是否控制环境、推理、训练、数据和部署关键环节。

课堂提示：科技投资不是押热词

访谈最后强调“创造”而不是“混圈”。在 AI 投资里，这意味着要理解技术路线和价值链：谁提升智能，谁承接智能，谁提供环境，谁掌握反馈，谁只是叙事套利。

本章小结

模型与产品的关系不是谁吃掉谁这么简单。强模型会压缩薄产品空间，但也会创造新容器机会。产品壁垒来自环境、状态、反馈、成本和用户任务，而不是简单套一个聊天框。

全球模型公司与 AI 产品公司格局

前面讨论产品壁垒，本章进入公司格局。2025 年 Q1 的公司图谱里，OpenAI、Anthropic、Google、DeepSeek、ByteDance、Mira/Thinking Machines、SSI、Cursor、Manus 等角色被放在同一张竞争图中。广密的讨论带有强主观判断，但它可以帮助我们理解不同类型公司在 AI 价值链中的位置。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{model-company-portfolio.png}
\caption{全球模型公司格局：不同公司押注模型、产品、生态、开源和资本结构。自制概念图，依据 01:15:11--01:54:32 对谈内容整理。}
\end{figure}

读图：不要把所有 AI 公司放在同一赛道

Anthropic 更偏企业/Coding，OpenAI 同时押模型和产品，ByteDance 有产品和流量，DeepSeek 代表开源效率，Cursor/Manus 是应用执行层。不同位置的成功条件完全不同，不能只用同一个 benchmark 排名。

GPT-4.5、GPT-5 与 OpenAI 风险

本节梳理 OpenAI 讨论。访谈提到 GPT-4.5 是否领先、GPT-5 为什么跳票、OpenAI 是否有失败风险、OpenAI 与微软关系、以及对 Anthropic MCP 协议的支持。课程化整理时应把这些看成几个变量：底座模型节奏、reasoning model 节奏、产品用户增长、云合作结构、协议生态和组织稳定性。

不要用单个发布判断一家公司

OpenAI 的风险和优势都很大：它有最强品牌、用户入口和产品心智，也有组织复杂化、云关系、研究节奏和商业化压力。单个模型版本不能决定长期胜负。

DeepSeek、开源效率与中国信号

本节看 DeepSeek。访谈把 DeepSeek 放在 Q1 的明星位置，强调它对全球模型格局和开源效率叙事的冲击。它的价值不只是“模型便宜”，而是说明中国团队可以通过工程效率、架构选择、训练 recipe 和开源传播影响全球认知。广密甚至用投资组合语言表达对 DeepSeek 的高权重偏好，这反映了他对开源效率路线的重视。

DeepSeek 的信号意义

DeepSeek 让行业重新评估中国团队在 frontier 模型、训练效率、开源生态和全球开发者影响力上的位置。它不是单纯的价格故事，而是能力、成本、开放和传播叠加的故事。

Manus、Perplexity、Cursor：执行力强的产品公司

本节看应用公司。访谈里 Manus、Perplexity、Cursor 被称为“模型盗火者”，甚至被调侃为“套壳之王”。这个说法表面上尖锐，但真正重点在执行力：它们把模型公司尚未产品化的能力快速转成用户体验。Perplexity 把搜索/研究重新组织，Cursor 把 Coding 变成高频工作流，Manus 把通用 Agent 的体验推到公众面前。

术语消化：模型公司、应用公司、基础设施公司

公司类型	核心资产	主要风险
模型公司	base model、训练 infra、研究人才、API/平台	训练成本高、组织复杂、产品压力大。
应用公司	用户入口、工作流、任务状态、反馈数据	被模型公司复制或被成本压垮。
基础设施公司	推理、训练、环境、工具协议、云资源	需要跟随模型和应用需求变化。
开源模型公司	成本效率、社区、透明度、生态扩散	商业化和持续训练资金压力。

MCP、协议和生态位

本节补足协议层。访谈提到 OpenAI 支持 Anthropic 的 MCP 协议，这说明 Agent 生态不只竞争模型，还竞争工具连接方式、上下文传递方式和安全边界。协议如果成为事实标准，会把模型、工具、企业系统和开发者生态连接起来。模型公司既要防止被协议商品化，又要避免自己被生态孤立。

Agent 生态的下一层竞争是协议

浏览器、IDE、企业 SaaS、文件系统和数据库都可能变成 Agent 工具。谁定义模型如何安全地读取上下文、调用工具和返回结果，谁就在定义 Agent 生态的交通规则。

本章小结

全球 AI 公司格局不能只按“谁的模型最强”排序。底座模型、开源效率、应用执行、协议生态、云合作和资本结构都在重排位置。2025 Q1 的真正变化，是模型能力开始更明确地流向 Coding、Agent 和工作流产品。

中美格局：如何跨越地缘封锁

上一章讨论公司图谱，本章收束到中美格局。访谈最后强调，科技投资和科技创业不能靠混圈子，还是要靠创造。地缘封锁会限制算力、资本、市场和合作，但不会自动决定胜负；真正穿越限制的，是技术创造力、工程执行、产品洞察、开源传播和产业链组织能力。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{china-us-geofence.png}
\caption{中美 AI 格局：地缘封锁下，技术创造力比混圈更重要。自制概念图，依据 01:54:32--02:01:11 对谈内容整理。}
\end{figure}

读图：优势不同，不代表只能防守

美国侧有算力、frontier lab、资本和全球产品入口，中国侧有工程速度、应用场景、开源效率和产业链执行力。地缘封锁会制造摩擦，但也会迫使团队在效率、工程和本地生态上找新路径。

中国团队的机会在哪里

本节把机会拆成四类。第一是效率机会：用更少算力做出可竞争模型和产品。第二是应用机会：中国有大量数字化业务、内容、电商、工业和硬件场景。第三是开源机会：通过开放模型和工具获得全球开发者分发。第四是产业链机会：AI 与硬件、机器人、汽车、消费电子结合时，中国供应链和工程速度会变得重要。

实践经验：封锁时代更需要可验证创造

越是外部约束强，越不能只讲叙事。团队需要拿出可验证的模型、代码、产品、收入、效率曲线和开发者采用。真正的全球影响力来自创造物，而不是圈层背书。

地缘约束下的风险

本节同样要保留风险意识。中国团队面临算力供应、海外合规、品牌信任、企业销售、支付和生态入口等限制；美国团队也面临成本、监管、产品泡沫、资本预期和组织复杂化。中美格局不是单方面压制，也不是单方面反超，而是两种创新系统在不同约束下寻找突破。

维度	美国优势/风险	中国优势/风险
算力	供应和云生态强，但成本和监管压力高	受出口管制约束，需要效率和替代方案。
模型	frontier lab 密集	开源效率和工程 recipe 可能成为突破口。
产品	全球入口和企业客户强	本地场景丰富，但全球化品牌更难。
产业链	软件生态强	硬件、汽车、机器人和制造链条强。

本章小结

中美 AI 格局的核心，不是简单乐观或悲观，而是看谁能在约束下创造更好的模型、产品、环境和生态。对 AI/互联网方向的长期追踪，应关注可验证产物，而不是只关注叙事热度。

总结与延伸

本节把全片压缩成一个可复用框架。2025 年 Q1 的大模型季报可以理解为“智能主线回归”：不要被单个产品爆点或单个公司发布带偏，而要持续追问模型上限从哪里来、模型如何行动、行动如何产生反馈、反馈如何回到学习、产品如何承接智能、公司如何把组织能力转成战略。

六个核心结论

第一，Pre-training 仍是底座能力上限的关键，不应因为后训练热度而被忽视。第二，Coding 是模型最早获得可验证行动能力的赛博环境。第三，Agent 是从语言输出到任务执行的系统跃迁。第四，Online Learning 可能把使用过程变成新数据生产过程。第五，应用壁垒来自环境、状态、反馈和成本控制。第六，中美竞争最终要看可验证创造，而不是圈层叙事。

本期术语速查表

本节给出速查，方便把这期和前后张小珺 AI/互联网队列连接起来。EP97 与 EP101 的 Agent 产品、EP102 的多模态路线、EP106/109 的具身智能、EP110 的 Agent 技术报告、EP127/136 的大模型季报有明显连续性。

术语/公司	本期含义	后续观察方式
Pre-training	打开 base model 内在上限	看下一代模型是否出现新能力，而非只刷分。
Reasoning/RL	强化推理和任务表现	看是否能转化为真实任务完成。
Coding	数字行动环境与模型的手	看开发者付费、工具调用和端到端任务成功率。
Agent	感知、工具、记忆和执行闭环	看长任务、错误恢复和可控性。
Online Learning	使用中产生反馈并持续学习	看环境、奖励、记忆和安全审计是否成熟。
DeepSeek	开源效率和中国模型信号	看能力、成本、生态和持续迭代。
Manus/Cursor	模型能力的产品容器	看工作流壁垒、收入和 token 经济。

后续观察问题

本节把季报转成后续跟踪清单。读者可以用这些问题判断 2025 年后续几个季度，广密这套判断是否继续成立。

下一代 base model 是否会出现明显新能力，还是主要靠 post-training 刷 benchmark？
Coding 场景的领先模型是否继续由 Anthropic/Claude 系列主导，还是 OpenAI、Google、DeepSeek 等会重新追上？
Agent 产品是否能从演示走向稳定交付，尤其是在长任务、权限、安全和成本上是否过关？
Online Learning 是否会出现可复现的工程范式，而不是停留在概念层？
模型公司与应用公司之间，谁更能掌握用户状态、任务环境和反馈数据？
DeepSeek 式开源效率路线是否能持续扩散到更多模型和工具生态？
中美 AI 竞争中，算力限制是否会被算法效率、工程优化和开源生态部分抵消？

拓展阅读

对 Agent 产品和应用创业感兴趣，可对照 EP101 YouWare、EP110 Agent 技术报告、EP139 Agent 技术史。
对多模态和世界模型感兴趣，可对照 EP102 张祥雨访谈、EP133 谢赛宁访谈。
对具身智能和机器人主线感兴趣，可对照 EP106 王鹤、EP109 光轮智能、VLA 投屏版 eiQFomOuCJs。
对大模型季报连续性，可对照 EP127、EP136 以及视频描述中列出的 2023/2024 年季度回顾。