Ep138 Vg1Rbqn1Sg4
导读:这期访谈为什么重要
这期访谈把 2026 年初大模型行业的一组关键词放到同一张桌子上:OpenClaw、Agent、后训练、RL scaling、MiMo-V2、多模型编排、1T 基座模型、卡资源分配、组织平权、环境比经验更重要。嘉宾罗福莉曾在阿里达摩院、DeepSeek 工作,目前负责小米大模型团队,访谈中的价值不只在“某个模型表现如何”,而在于它呈现了一个 AI Lab 如何感知范式变化并重组研究方式。
本期核心命题
罗福莉的判断是:大模型战争进入第二幕,从 pre-train 主导的 Chat 时代,转向 post-train 主导的 Agent 时代。接下来竞争不只看基座模型,也看 Agent 框架、RL infra、任务环境、成本速度、组织敏捷性和算力分配。
视觉策略说明
本视频是固定访谈画面,没有教学 slides、白板或产品演示。按本仓库播客标准,正文不重复插入人物帧;封面用于来源识别,正文用概念图和表格承载技术内容。
本章小结
本期应当被读作“Agent 时代 AI Lab 运营手册”的口头材料:它讨论的不只是模型,而是模型、框架、后训练、算力和组织如何一起变化。
从 Chat 到 Agent:范式迁移
访谈开头把 2026 年定义为大模型战争第二幕。第一幕是 Chat:用户和模型通过问答交互,核心竞争来自预训练规模、指令对齐和短上下文体验。第二幕是 Agent:模型进入环境、调用工具、执行长程任务,核心竞争转向后训练、RL infra、环境反馈、成本和可靠性。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{chat-to-agent-paradigm.png}
\caption{从 Chat/Pre-train 主导到 Agent/Post-train 主导的范式迁移。}
\end{figure}
读图:这张图应该怎么看
左侧 Chat 阶段强调问答、检索和生成,资源重心在预训练数据与基座模型;右侧 Agent 阶段强调工具、环境和长程任务,资源重心转到 rollout、RL infra、评估和框架。图中箭头不是说预训练不重要,而是说竞争焦点发生转移。
OpenClaw 的触发作用
罗福莉最初把 OpenClaw 看作 Claude Code 加一个 UI,本能排斥它的运营包装。但真正使用后,她把它定义为划时代 Agent 框架,因为它让模型短板被框架弥补,也让普通团队成员能通过框架参与“提升智能水平”。OpenClaw 的意义不是某个 UI,而是让 Agent 框架成为研究范式。
OpenClaw 的本质
OpenClaw 让模型、工具、任务环境和人的想象力被组织到一个可迭代框架里。它不是单纯“产品形态创新”,而是把后训练时代的研究问题显性化:如何让 Agent 框架和模型互相放大。
为什么 2026 是生产力变革之年
罗福莉认为,中国开发者对 OpenClaw 类工具反应更强,一方面因为效率提升需求更迫切,另一方面因为国内有大量便宜好用模型。若一个复杂 Agent 任务花 10 元 API 成本,却替代 1000 元人力价值,采用动力会非常强。Agent 生产力革命的前置条件,是足够好的框架、足够便宜的模型和足够明确的任务回报。
不要把火爆等同于成熟
一个框架火起来,可能说明它抓住了生产力需求,但不代表它已经工业级成熟。真正成熟需要端到端完成率、成本效率、速度、可靠性和安全边界共同达标。
本章小结
Chat 阶段展示模型智能,Agent 阶段要求模型进入任务环境。OpenClaw 的冲击在于,它让许多人第一次感受到:框架、工具和群体使用方式可以快速改变模型能力的外显上限。
后训练与 RL Infra:Agent 时代的核心系统
访谈反复提到,Agent 范式很吃后训练。原因是 Agent 不再只回答单个问题,而是在环境中做多步行动。它需要 rollout 生成轨迹、reward/verifier 提供反馈、policy update 改变策略、evaluation 衡量端到端结果,还需要 scaffold 管理工具与任务。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{agent-rl-infra-loop.png}
\caption{Agent post-train 与 RL infra 的闭环。}
\end{figure}
读图:Agent 后训练不是一个单点模块
图中任务环境、rollout engine、reward/verifier、policy update、eval/cost 和 scaffold 构成闭环。它说明后训练不是“再微调一下”,而是一个工程系统:任务怎么产生、轨迹怎么采、反馈怎么定义、策略怎么更新、成本怎么衡量,都要同时解决。
Rollout 推理引擎到 Agent 核心系统
描述里有一句关键话:系统从“以 rollout 推理引擎为核心”,转变为“以 Agent 为核心”的复杂系统。前者更像围绕模型生成答案与推理路径;后者需要整个环境闭环。对团队的要求也变化了:必须足够敏捷,能快速开发适配新范式的 RL infra。
| 阶段 | 训练/评估对象 | 团队能力要求 |
|---|---|---|
| Chat 后训练 | 回答质量、偏好、推理链、对齐 | 数据清洗、偏好标注、指令/偏好优化。 |
| Reasoning 后训练 | 可验证数学、代码、推理路径 | verifier、采样、搜索、reward 设计。 |
| Agent 后训练 | 多步环境任务、工具链、端到端完成率 | rollout infra、任务环境、工具编排、成本与安全评估。 |
RL scaling 的难点
Agent 上怎么做好 RL scaling,是罗福莉认为当前清晰但仍需探索的方向。困难在于,Agent 任务的 reward 常常不如代码测试或数学答案清晰;任务环境更长、更开放、更容易出隐藏状态;成本也更高。RL scaling 不只是放大采样,而是要让任务、环境、反馈、成本和安全都能规模化。
Agent 后训练的关键约束
Agent 后训练的瓶颈不是单纯缺算法,而是缺可扩展的任务环境和反馈机制。没有稳定环境,rollout 没法规模化;没有可靠 verifier,RL 会学偏;没有成本控制,系统无法生产化。
本章小结
Agent 时代的后训练是系统工程。它要求团队从模型训练视角转向环境闭环视角,把 rollout、reward、policy、evaluation、scaffold 和成本控制连成一套可扩展基础设施。
MiMo-V2:多模型编排与生态伏击
罗福莉把 MiMo-V2 系列称为一次“觉醒”和“伏击”。一年前做多模态和语音时,它们像独立模型;看到 OpenClaw 后,她突然意识到这些模型可以在 Agent 框架中被组织和编排:语言模型负责规划和推理,多模态模型负责感知,语音模型负责交互,小模型负责低成本高频调用。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{mimo-orchestration.png}
\caption{MiMo-V2 生态在 Agent 任务中的多模型编排。}
\end{figure}
读图:为什么不是所有能力都合进一个模型
图中 Agent scaffold 位于中心,周围是语言、多模态、语音和小模型。它支持的结论是:端到端生产力不一定来自一个最大模型,而来自按任务阶段调度不同模型,以获得更好的速度、成本和能力组合。
成本、速度与价格
罗福莉多次强调,生产力革命必须在意端到端完成率与成本效率。语音生成没有必要用一体化大模型,多模态理解是否值得更大模型也要打问号。Agent 框架让不那么顶尖但更便宜、更快的小模型获得更大发挥空间,因为框架能弥补短板并稳定输出。
不要只问“哪个模型最强”
Agent 系统更应该问:哪个模型在这个环节最合适。规划、感知、语音、验证、执行、总结可能需要不同模型。最强模型若太慢太贵,未必是生产系统最优解。
同生态模型的协同
罗福莉提到,同一个生态训练出来的模型共享背景知识和能力边界,因此可以更放心地在 Agent 框架中分工。这里的关键不是品牌协同,而是系统知道每个模型擅长什么、成本如何、输出如何接入下一步。
MiMo-V2 的工程含义
MiMo-V2 在访谈中的意义不只是发布多个模型,而是说明 Agent 时代模型家族需要被编排成系统。模型、工具、任务和成本路由共同构成产品能力。
本章小结
MiMo-V2 章节说明,多模型生态在 Agent 时代会从“并列发布”变成“任务编排”。未来竞争不只是谁有一个最强模型,也是谁能把多个模型组织成低成本、高完成率的 Agent 系统。
算力分配:1T 入场券与 3:1:1
访谈中最具体的资源判断之一,是“1T 模型是入场券”和算力比例变化。罗福莉认为,如果要做到接近 Claude Opus 4.6 的 Agent 水平,1T 级基础模型可能是入场券。但进入 Agent 阶段后,算力分配不能仍然由预训练独占。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{compute-allocation.png}
\caption{从 Chat 阶段到 Agent 阶段的算力分配趋势。}
\end{figure}
读图:3:5:1 与 3:1:1 的含义
图中 3:5:1 和 3:1:1 是访谈中的口头比例,用来表达资源重心变化。Chat 时代预训练占比更高;Agent 时代 research、pre-train、post-train 的关系更接近均衡,后训练用卡权重显著上升。
1T 是什么意义上的入场券
“1T 模型是入场券”不是说只要 1T 参数就够,也不是说小模型没有价值。它指向一个前沿 Agent 能力门槛:若要对标最强 Agent 系统,基座模型规模、知识、推理、代码和多步任务能力必须达到足够高的底座水平。后训练和框架可以放大模型,但不能凭空制造所有能力。
规模不是唯一答案
参数量只是入口变量。Agent 系统还受训练数据、上下文、代码能力、工具使用、后训练、任务环境、成本和组织执行影响。把“1T 入场券”理解成“堆参数即可领先”是误读。
Post-train 与 pre-train 的平衡
罗福莉认为,顶尖团队预训练与后训练的资源比例已经接近 1:1。这意味着后训练不再是预训练后的尾声,而是与预训练并列的主战场。尤其在 Agent 任务中,后训练直接决定模型是否能适配环境、工具和长程任务。
资源配置是战略判断
卡怎么分,不是财务问题,而是技术路线判断。把卡继续全部堆给预训练,和把足够卡留给 research、post-train、rollout、eval,会得到完全不同的组织能力。
本章小结
Agent 时代的算力分配更均衡、更复杂。前沿竞争既需要大基座,也需要后训练和研究资源。3:1:1 的核心信息是:后训练已经从配角变成主角。
组织平权:为什么 Agent 研究需要多样性
访谈中“组织平权”不是政治口号,而是研究组织方法。罗福莉认为,做后训练需要 diversity,让预训练的人参与后训练是很好的补充。Agent 系统涉及模型、数据、RL、产品、工程、成本、安全和用户环境,单一背景团队很难覆盖全部问题。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{org-equality.png}
\caption{Agent 研究中的组织平权:多职能进入同一研究闭环。}
\end{figure}
读图:组织平权不是平均主义
图中 pre-train、post-train/RL、product/UX、infra/systems、leadership 都连向 Agent research。它说明不同职能都需要进入研究闭环,而不是由某个单一小组垄断判断。平权指信息和责任进入同一系统,而不是每个人做同样工作。
群体智能如何提升 Agent 框架
春节期间,罗福莉推动团队集体使用 OpenClaw。她强调,一个人的想象力有限;当团队成员在大群里展示“原来还能这么用”时,会激发其他人的想象力。群体智能不是抽象概念,而是通过共享使用经验、互相刺激场景想象、快速发现框架能力和短板来提升研究速度。
组织也是训练环境
如果 Agent 能从环境中学习,团队也能从共同使用环境中学习。让团队共同进入新工具、新范式、新任务环境,本质上是在给组织做一次 post-train。
文化与价值观
视频描述强调,这次技术巨变中 AI Lab 的根基是文化与价值观。罗福莉后面也谈到,自己每天做的事要让世界变好一点,让无聊工作被替代,让人有时间做更有价值的事。这个价值观会影响团队如何选择任务、如何定义 benchmark、如何配置资源。
价值观不是装饰
当模型越来越能替代人类工作时,团队选择优化什么、替代什么、保留什么,会变成技术决策的一部分。没有价值观约束,Agent 能力越强,风险也可能越大。
本章小结
Agent 时代的组织能力不只是招更多人,而是让不同背景的人共同进入研究闭环。组织平权、群体智能和价值观,决定一个实验室能否快速拥抱新范式。
另类架构、1T 之后与模型进化史
访谈后半段回顾过去三年的模型进化:ChatGPT 释放短上下文聊天交互;2023 年开源团队追赶预训练;reasoning 阶段代码和数学成为可验证信号;Agent 阶段代码和环境反馈成为长程任务训练入口。罗福莉认为,国内团队在 pre-train 上代差已经很小,下一步竞争在 Agent post-train 和 RL scaling。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{model-evolution-timeline.png}
\caption{过去三年模型进化:从 ChatGPT 到 Agent 后训练。}
\end{figure}
读图:每一阶段如何继承上一阶段
时间线不是替代关系。ChatGPT 让用户感知预训练智能;开源追赶补齐数据和架构;reasoning 让可验证任务成为训练信号;Agent 原型把代码和环境引入长程任务;2026 年则把 post-train scaling 推到主线。
另类架构的意义
罗福莉提到 DeepSeek-V2、MoE、attention 改造等“反主流”选择。另类架构不是为了反主流而反主流,而是在资源受限或成本敏感环境中寻找可扩展研究。一个研究若只是 paper trick,不一定能转化为工业级模型;但若能 scale,并最终形成高水平模型状态,就是有价值的 frontier research。
| 路线 | 解决的问题 | 工业化判断 |
|---|---|---|
| MoE | 用稀疏激活降低单位 token 计算成本 | 需要路由、负载均衡、训练稳定性和部署效率同时成立。 |
| Attention 改造 | 降低长上下文和推理成本 | 要看能否在真实任务中保持质量,而非只看局部 benchmark。 |
| 小模型 + 框架 | 用便宜模型配合 Agent scaffold | 适合高频、低成本、可被框架补短板的环节。 |
| 1T 基座 | 提供前沿 Agent 能力底座 | 是入场券,不是完整答案。 |
AI 没有生存危机
罗福莉用人类进化和模型进化做对比:人类是在自然环境和生存压力中进化,模型没有自己的生存危机,却拥有大量算力、人类知识和人类帮助。因此 AI 的进化路径可能更自由、更散漫、更快,也更不同于生物智能。这一段提醒我们,不要把人类进化类比生硬套到模型上。
类比的边界
“语言在人类智能中很晚出现”可以启发我们理解 AI 的倒三角结构,但模型环境与人类环境完全不同。AI 的下一步不一定复刻人类身体或感官路径,而可能先在 coding、生产力和数字环境中继续扩张。
每天否认昨天的自己
罗福莉说,过去半年几乎每天都在否认昨天的自己。这个表述很适合 2026 年 Agent 阶段:工具、框架、模型、成本和组织方式都在快速变化。对研究团队来说,稳定不是固守旧判断,而是建立能快速更新判断的机制。
研究速度的来源
研究速度不只来自聪明人,也来自环境:足够算力、足够好的基础设施、足够快的反馈、足够开放的组织和足够明确的价值观。环境比经验更重要,是这期结尾的关键判断。
本章小结
过去三年的模型进化,从聊天交互、开源追赶、reasoning 验证,走到 Agent 后训练。下一阶段的领先取决于可 scale 的架构、后训练系统、资源配置和快速自我否定能力。
当下共识与竞争:国内团队如何追赶
罗福莉认为,Anthropic 的路径正确已经成为共识;在路径更清晰后,国内大模型团队进入加速追赶状态。现在 pre-train 代差很小,甚至国内在某些结构上有优势;真正要 all in 的,是 Agent post-train,尤其是在 Agent 上怎么做好 RL scaling。
Coding 为什么每个范式都重要
Coding 在多个阶段都戳中了关键点。预训练阶段,代码数据质量高、结构清晰;reasoning 阶段,代码和数学有可验证反馈;Agent 阶段,软件开发本身是长程任务,有真实环境、测试、调试和复杂依赖。它既是训练信号,也是产品场景。
Coding 的三重角色
Coding 是数据、评估和产品。作为数据,它结构化且质量高;作为评估,它有测试和运行反馈;作为产品,它直接对应高价值生产力场景。这就是为什么 coding 在每个范式中都重要。
环境比经验更重要
结尾部分,罗福莉强调环境比经验更重要。所谓环境,包括算力、基础设施、芯片、操作系统、流量、社交、组织文化和战略资源。一个团队是否能在新范式中领先,取决于它能否让这些资源合力适配 Agent 架构。
经验可能成为负担
在范式快速变化时,旧经验会帮助判断,也会限制想象。真正重要的是环境能否给团队持续反馈和加速度,使其能不断否认旧判断、重构旧流程。
本章小结
当下竞争的共识是:pre-train 差距缩小,Agent post-train 成为主线。国内团队的机会在于路径更清晰、成本敏感、应用反馈快;挑战在于 RL infra、任务环境和组织重构。
附录:术语索引与复习路线
术语消化:本期关键词索引
| 术语 | 一句话解释 | 在本期中的作用 |
|---|---|---|
| OpenClaw | 触发 Agent 框架共识的产品/开源框架 | 代表 Agent 范式被产品化展示。 |
| Post-train | 预训练之后围绕任务、偏好、环境和反馈继续训练 | Agent 时代的主战场。 |
| RL Infra | 支撑 rollout、reward、policy update 和 eval 的基础设施 | 决定 Agent 后训练能否 scale。 |
| Rollout | 在任务环境中生成轨迹和交互过程 | RL 数据和反馈的来源。 |
| MiMo-V2 | 小米模型家族的访谈核心案例 | 展示多模型如何被 Agent 框架编排。 |
| 1T 入场券 | 对标前沿 Agent 能力所需的基础模型规模门槛 | 说明基座模型仍重要。 |
| 组织平权 | 多职能进入同一研究闭环 | 解释为什么后训练需要 diversity。 |
| 环境比经验重要 | 研究速度来自算力、infra、组织和反馈环境 | 结尾的战略判断。 |
复习路线
建议先读第 2 章理解 Chat 到 Agent 的范式迁移,再读第 3 章掌握后训练闭环,然后读第 4--6 章理解 MiMo 编排、算力分配和组织平权。第 7--8 章适合作为产业判断:为什么 2026 年竞争不再只是基座模型,而是架构、后训练、环境和组织能力的组合。
与 EP139 的连接
EP139 苏煜访谈给出 Agent 技术史和 universal digital agent 框架;EP138 罗福莉访谈则展示一家模型实验室如何把这个框架转化为后训练、模型编排、资源配置和组织重构。两期应连读。
本章小结
本期关键词可以压缩为六个:OpenClaw、后训练、RL infra、多模型编排、算力重配、组织平权。它们共同指向一个判断:Agent 时代的竞争是系统竞争。
训练细节、成本与另类架构:为什么这是系统工程
访谈中“训练细节和成本”虽然章节较短,但它是理解整期的钥匙。罗福莉不断强调,Agent 时代所有路径都要回到端到端完成率、速度和成本。一个模型在 benchmark 上更强,不代表它在 Agent 框架中更优;一个模型更大,也不代表它在所有环节都值得调用。真正的系统工程,是把模型能力、任务阶段、工具调用、延迟、价格和可靠性放在同一张表里做决策。
成本不是财务尾项,而是模型能力的一部分
如果一个 Agent 任务需要几十轮模型调用、工具执行和环境反馈,那么单次调用成本会被长程任务放大。便宜小模型、专用模型、多模型路由、缓存、验证器和框架编排,都会直接影响系统能不能上线。
术语消化:训练与成本词表
| 术语 | 解决的问题 | 与本期关系 |
|---|---|---|
| 端到端完成率 | 整个任务最终是否完成 | Agent 产品不能只看局部动作或单轮回答。 |
| 调用路由 | 不同环节选择不同模型 | 用大模型做关键推理,小模型做高频低风险环节。 |
| 验证器 | 判断任务结果是否正确 | 是 RL feedback 和可靠性评估的关键。 |
| Rollout 成本 | 生成多条轨迹的算力与 API 成本 | 决定后训练能否 scale。 |
| Latency | 用户等待时间和任务总耗时 | 影响生产力工具是否可用。 |
| Scaffold | Agent 外部框架、工具编排和状态管理 | 能弥补模型短板,也能放大顶尖模型上限。 |
另类架构为什么重要
另类架构在这里不是“奇技淫巧”,而是资源约束下的可扩展研究。DeepSeek-V2、MoE、attention 改造等方向,本质上都在问同一个问题:如何在给定算力和硬件条件下获得更好的单位成本智能。Agent 时代这个问题更尖锐,因为长程任务会反复调用模型,任何单步效率差距都会被放大。
不要把另类架构只当论文创新
如果一个架构无法 scale 到工业模型,无法部署到真实推理系统,或无法降低端到端任务成本,它对 Agent 产品的价值就有限。访谈强调的“工业级水准”,正是要求架构创新最终进入可运行系统。
本章小结
训练细节、成本和另类架构共同说明:Agent 时代的技术路线不是“更大模型”单变量竞赛,而是端到端系统效率竞赛。模型结构、后训练、框架和推理成本必须一起优化。
研究心法:每天否认昨天的自己
罗福莉说,过去半年最大的感受是“每天都在否认昨天的自己”。这不是情绪化表达,而是快速范式迁移中的研究心法:当 OpenClaw、Claude Code、Agent 后训练和多模型编排快速出现时,旧判断会以周甚至天为单位失效。团队必须具备快速更新假设、快速重做实验、快速调整资源配置的能力。
从量化到大模型的 reward 变化
访谈中提到,量化投资里价格就是 reward,相对清晰;而大模型赛道的 reward 更不清晰、更变化。Agent 更是如此:任务成功、用户价值、安全边界、成本效率和长期学习都可能成为 reward 的一部分。这要求研究者不只优化一个数字,而要持续定义“什么才是好”。
Reward 不清晰时怎么做研究
当 reward 不清晰,研究不能停止,而要先构造可验证代理指标:任务完成率、人工偏好、成本、失败类型、可恢复性、安全事件、用户留存等。然后不断检查这些代理指标是否真的服务最终价值。
环境比经验更重要
“环境比经验更重要”是本期结尾的战略判断。这里的环境包括算力、基础设施、芯片、操作系统、流量、社交、组织文化和战略资源。经验固然有用,但如果环境不给反馈、不允许试错、不提供算力、不支持跨团队协作,经验会很快变成旧范式的包袱。
环境是研究加速度
经验决定初始位置,环境决定加速度。Agent 时代变化太快,谁能更快获得真实反馈、更多 rollout、更好 infra、更开放组织,谁就更可能在新范式里领先。
本章小结
每天否认昨天的自己,不是没有判断,而是建立能更新判断的系统。Agent 时代的研究心法,是把价值观、实验反馈、资源环境和组织调整连成一个持续学习闭环。
与 EP139 的对照:技术史框架到实验室行动
EP139 苏煜访谈给出 Agent 技术史:Agent 作为实体、环境和目标导向行动的系统,如何从 logical agent、semantic parsing 走到 language agent 和 universal digital agent。EP138 罗福莉访谈则回答另一个问题:当这个范式来到模型实验室内部,团队应该如何行动。
| 维度 | EP139 苏煜 | EP138 罗福莉 |
|---|---|---|
| 关注层级 | Agent 技术谱系与概念框架 | AI Lab 的资源、组织和模型路线。 |
| 核心转折 | OpenClaw Moment 让 Agent 共识形成 | OpenClaw 改变团队研究范式。 |
| 关键机制 | Language Agent、边界消融、continual learning | Post-train、RL infra、多模型编排、卡分配。 |
| 落地问题 | reliability、cost、deployment、world model | 端到端完成率、成本速度、组织平权、环境反馈。 |
连读方法
先读 EP139,理解 Agent 为什么是一个长期技术问题;再读 EP138,理解模型团队如何在这个技术问题变成产业共识后调整资源、训练系统和组织结构。
本章小结
两期合起来构成一组:EP139 是 Agent 的概念地图,EP138 是 Agent 时代模型实验室的行动地图。后续Zhang Xiaojun AI 队列可以沿着这两张地图继续整理。
附录二:AI Lab 面对 Agent 范式的行动清单
这期访谈可以转成一份面向模型团队的行动清单。它不是要求每家公司照抄,而是帮助读者把“范式变化”落到可执行问题上。
| 决策项 | 需要回答的问题 | 错误做法 |
|---|---|---|
| Agent 框架 | 我们的模型如何接入工具、环境、记忆和长程任务? | 只把 Agent 当成复杂 system prompt。 |
| RL infra | rollout、reward、verifier、eval 如何规模化? | 只做离线偏好数据,不建设环境闭环。 |
| 卡资源 | research、pre-train、post-train 如何分配? | 继续让预训练独占所有战略资源。 |
| 模型家族 | 哪些环节用大模型,哪些环节用小模型或专用模型? | 所有任务无差别调用最大模型。 |
| 成本速度 | 端到端完成率、延迟和价格如何共同优化? | 只看 benchmark,不算真实任务成本。 |
| 组织结构 | 预训练、后训练、产品、系统是否共同进入闭环? | 让单一团队垄断所有判断。 |
| 价值观 | 替代哪些工作、保留哪些人类价值? | 只优化破坏性或短期指标。 |
行动清单的用途
如果一个团队声称要 all in Agent,但无法回答上表问题,它很可能只是在追热点。真正的 Agent 转型,会反映在资源分配、训练基础设施、模型路由、组织协作和价值观选择上。
本章小结
Agent 范式不是一句战略口号,而是一组具体选择。读者可以用这张行动清单检查任何模型实验室、创业公司或产品团队是否真的进入了 Agent 时代。
附录三:模型实验室自检评分卡
为了把本期访谈转成可执行判断,可以给任何模型实验室或 Agent 创业团队做一个简化评分卡。它不是排名工具,而是帮助读者判断一个团队是否真的理解 Agent 范式。
| 维度 | 高分表现 | 低分信号 |
|---|---|---|
| 范式判断 | 能清楚说明 Chat、Reasoning、Agent 三阶段的训练和产品差异 | 只把 Agent 当成工具调用或复杂 prompt。 |
| 后训练系统 | 有任务环境、rollout、verifier、eval、成本监控的闭环 | 只有离线数据或人工挑样例。 |
| 模型编排 | 能按任务阶段路由大小模型、多模态模型和专用模型 | 所有任务都调用同一个最大模型。 |
| 算力配置 | research、pre-train、post-train 有明确比例和迭代节奏 | 资源被历史路径锁死,后训练没有足够卡。 |
| 组织机制 | 预训练、后训练、产品、系统、评估共同参与决策 | 单一团队闭门决定,真实用户和工程反馈进不来。 |
| 成本意识 | 端到端完成率、延迟、价格一起优化 | 只关心能力展示,不关心单位任务经济账。 |
| 价值观与边界 | 明确哪些任务应自动化、哪些需要人类保留判断 | 只追求替代和增长,不讨论安全、责任和社会后果。 |
如何使用这张评分卡
读后续Zhang Xiaojun AI 队列时,可以把每期嘉宾观点映射到这七个维度。比如苏煜访谈更偏“范式判断”和“长期学习”,罗福莉访谈则更偏“后训练系统”“模型编排”“算力配置”和“组织机制”。这样多期笔记会逐渐形成一个可比较的 AI Lab 操作系统图谱。
本章小结
评分卡把访谈里的判断变成可复用框架。它提醒读者:Agent 时代不是某个单点技术胜出,而是多个系统维度同时达标。
总结与延伸
核心结论
- Agent 时代不是聊天能力增强,而是模型进入环境、工具和长程任务。
- OpenClaw 的价值在于触发框架共识,让团队看到模型与 scaffold 互相放大的可能。
- 后训练尤其是 Agent RL scaling 成为主线,需要任务环境、rollout、reward、eval 和成本控制。
- MiMo-V2 的意义在于多模型编排,而不是单个模型发布。
- 算力分配从预训练独大转向 research、pre-train、post-train 更均衡。
- 组织平权、多样性和文化价值观会影响 AI Lab 拥抱新范式的速度。
- 国内团队的追赶机会在 Agent post-train、成本敏感和应用反馈,但挑战在 RL infra 和组织敏捷性。
开放问题
- Agent post-train 的主流 reward 和环境形态会是什么?
- 1T 基座模型是否长期是入场券,还是会被小模型 + 框架逐步侵蚀?
- 多模型编排会走向统一生态,还是开放市场中的模型路由?
- 组织平权如何避免变成混乱协作,而真正提升研究速度?
- 当模型没有“生存危机”时,人类应该如何设计它的价值函数和社会位置?
拓展阅读
- EP139 苏煜 Agent 技术史:理解 OpenClaw Moment 与 Language Agent 的历史背景。
- Claude Code / OpenClaw / Computer Use Agent 相关材料:理解 Agent 框架如何改变产品形态。
- RLHF、RLAIF、verifier、rollout、agent benchmark 相关论文:理解后训练基础设施。
- MoE、attention alternatives、multi-modal model orchestration:理解 MiMo-V2 背后的模型系统问题。
最后的判断
Agent 时代的胜负不会由某一个单点模型决定。它更像一场系统竞赛:谁能更快地把模型、框架、任务环境、后训练、算力、产品和组织拧成闭环,谁就更可能在下一阶段领先。