Ep138 Vg1Rbqn1Sg4

导读：这期访谈为什么重要

这期访谈把 2026 年初大模型行业的一组关键词放到同一张桌子上：OpenClaw、Agent、后训练、RL scaling、MiMo-V2、多模型编排、1T 基座模型、卡资源分配、组织平权、环境比经验更重要。嘉宾罗福莉曾在阿里达摩院、DeepSeek 工作，目前负责小米大模型团队，访谈中的价值不只在“某个模型表现如何”，而在于它呈现了一个 AI Lab 如何感知范式变化并重组研究方式。

本期核心命题

罗福莉的判断是：大模型战争进入第二幕，从 pre-train 主导的 Chat 时代，转向 post-train 主导的 Agent 时代。接下来竞争不只看基座模型，也看 Agent 框架、RL infra、任务环境、成本速度、组织敏捷性和算力分配。

视觉策略说明

本视频是固定访谈画面，没有教学 slides、白板或产品演示。按本仓库播客标准，正文不重复插入人物帧；封面用于来源识别，正文用概念图和表格承载技术内容。

本章小结

本期应当被读作“Agent 时代 AI Lab 运营手册”的口头材料：它讨论的不只是模型，而是模型、框架、后训练、算力和组织如何一起变化。

从 Chat 到 Agent：范式迁移

访谈开头把 2026 年定义为大模型战争第二幕。第一幕是 Chat：用户和模型通过问答交互，核心竞争来自预训练规模、指令对齐和短上下文体验。第二幕是 Agent：模型进入环境、调用工具、执行长程任务，核心竞争转向后训练、RL infra、环境反馈、成本和可靠性。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{chat-to-agent-paradigm.png}
\caption{从 Chat/Pre-train 主导到 Agent/Post-train 主导的范式迁移。}
\end{figure}

读图：这张图应该怎么看

左侧 Chat 阶段强调问答、检索和生成，资源重心在预训练数据与基座模型；右侧 Agent 阶段强调工具、环境和长程任务，资源重心转到 rollout、RL infra、评估和框架。图中箭头不是说预训练不重要，而是说竞争焦点发生转移。

OpenClaw 的触发作用

罗福莉最初把 OpenClaw 看作 Claude Code 加一个 UI，本能排斥它的运营包装。但真正使用后，她把它定义为划时代 Agent 框架，因为它让模型短板被框架弥补，也让普通团队成员能通过框架参与“提升智能水平”。OpenClaw 的意义不是某个 UI，而是让 Agent 框架成为研究范式。

OpenClaw 的本质

OpenClaw 让模型、工具、任务环境和人的想象力被组织到一个可迭代框架里。它不是单纯“产品形态创新”，而是把后训练时代的研究问题显性化：如何让 Agent 框架和模型互相放大。

为什么 2026 是生产力变革之年

罗福莉认为，中国开发者对 OpenClaw 类工具反应更强，一方面因为效率提升需求更迫切，另一方面因为国内有大量便宜好用模型。若一个复杂 Agent 任务花 10 元 API 成本，却替代 1000 元人力价值，采用动力会非常强。Agent 生产力革命的前置条件，是足够好的框架、足够便宜的模型和足够明确的任务回报。

不要把火爆等同于成熟

一个框架火起来，可能说明它抓住了生产力需求，但不代表它已经工业级成熟。真正成熟需要端到端完成率、成本效率、速度、可靠性和安全边界共同达标。

本章小结

Chat 阶段展示模型智能，Agent 阶段要求模型进入任务环境。OpenClaw 的冲击在于，它让许多人第一次感受到：框架、工具和群体使用方式可以快速改变模型能力的外显上限。

后训练与 RL Infra：Agent 时代的核心系统

访谈反复提到，Agent 范式很吃后训练。原因是 Agent 不再只回答单个问题，而是在环境中做多步行动。它需要 rollout 生成轨迹、reward/verifier 提供反馈、policy update 改变策略、evaluation 衡量端到端结果，还需要 scaffold 管理工具与任务。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{agent-rl-infra-loop.png}
\caption{Agent post-train 与 RL infra 的闭环。}
\end{figure}

读图：Agent 后训练不是一个单点模块

图中任务环境、rollout engine、reward/verifier、policy update、eval/cost 和 scaffold 构成闭环。它说明后训练不是“再微调一下”，而是一个工程系统：任务怎么产生、轨迹怎么采、反馈怎么定义、策略怎么更新、成本怎么衡量，都要同时解决。

Rollout 推理引擎到 Agent 核心系统

描述里有一句关键话：系统从“以 rollout 推理引擎为核心”，转变为“以 Agent 为核心”的复杂系统。前者更像围绕模型生成答案与推理路径；后者需要整个环境闭环。对团队的要求也变化了：必须足够敏捷，能快速开发适配新范式的 RL infra。

阶段	训练/评估对象	团队能力要求
Chat 后训练	回答质量、偏好、推理链、对齐	数据清洗、偏好标注、指令/偏好优化。
Reasoning 后训练	可验证数学、代码、推理路径	verifier、采样、搜索、reward 设计。
Agent 后训练	多步环境任务、工具链、端到端完成率	rollout infra、任务环境、工具编排、成本与安全评估。

RL scaling 的难点

Agent 上怎么做好 RL scaling，是罗福莉认为当前清晰但仍需探索的方向。困难在于，Agent 任务的 reward 常常不如代码测试或数学答案清晰；任务环境更长、更开放、更容易出隐藏状态；成本也更高。RL scaling 不只是放大采样，而是要让任务、环境、反馈、成本和安全都能规模化。

Agent 后训练的关键约束

Agent 后训练的瓶颈不是单纯缺算法，而是缺可扩展的任务环境和反馈机制。没有稳定环境，rollout 没法规模化；没有可靠 verifier，RL 会学偏；没有成本控制，系统无法生产化。

本章小结

Agent 时代的后训练是系统工程。它要求团队从模型训练视角转向环境闭环视角，把 rollout、reward、policy、evaluation、scaffold 和成本控制连成一套可扩展基础设施。

MiMo-V2：多模型编排与生态伏击

罗福莉把 MiMo-V2 系列称为一次“觉醒”和“伏击”。一年前做多模态和语音时，它们像独立模型；看到 OpenClaw 后，她突然意识到这些模型可以在 Agent 框架中被组织和编排：语言模型负责规划和推理，多模态模型负责感知，语音模型负责交互，小模型负责低成本高频调用。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{mimo-orchestration.png}
\caption{MiMo-V2 生态在 Agent 任务中的多模型编排。}
\end{figure}

读图：为什么不是所有能力都合进一个模型

图中 Agent scaffold 位于中心，周围是语言、多模态、语音和小模型。它支持的结论是：端到端生产力不一定来自一个最大模型，而来自按任务阶段调度不同模型，以获得更好的速度、成本和能力组合。

成本、速度与价格

罗福莉多次强调，生产力革命必须在意端到端完成率与成本效率。语音生成没有必要用一体化大模型，多模态理解是否值得更大模型也要打问号。Agent 框架让不那么顶尖但更便宜、更快的小模型获得更大发挥空间，因为框架能弥补短板并稳定输出。

不要只问“哪个模型最强”

Agent 系统更应该问：哪个模型在这个环节最合适。规划、感知、语音、验证、执行、总结可能需要不同模型。最强模型若太慢太贵，未必是生产系统最优解。

同生态模型的协同

罗福莉提到，同一个生态训练出来的模型共享背景知识和能力边界，因此可以更放心地在 Agent 框架中分工。这里的关键不是品牌协同，而是系统知道每个模型擅长什么、成本如何、输出如何接入下一步。

MiMo-V2 的工程含义

MiMo-V2 在访谈中的意义不只是发布多个模型，而是说明 Agent 时代模型家族需要被编排成系统。模型、工具、任务和成本路由共同构成产品能力。

本章小结

MiMo-V2 章节说明，多模型生态在 Agent 时代会从“并列发布”变成“任务编排”。未来竞争不只是谁有一个最强模型，也是谁能把多个模型组织成低成本、高完成率的 Agent 系统。

算力分配：1T 入场券与 3:1:1

访谈中最具体的资源判断之一，是“1T 模型是入场券”和算力比例变化。罗福莉认为，如果要做到接近 Claude Opus 4.6 的 Agent 水平，1T 级基础模型可能是入场券。但进入 Agent 阶段后，算力分配不能仍然由预训练独占。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{compute-allocation.png}
\caption{从 Chat 阶段到 Agent 阶段的算力分配趋势。}
\end{figure}

读图：3:5:1 与 3:1:1 的含义

图中 3:5:1 和 3:1:1 是访谈中的口头比例，用来表达资源重心变化。Chat 时代预训练占比更高；Agent 时代 research、pre-train、post-train 的关系更接近均衡，后训练用卡权重显著上升。

1T 是什么意义上的入场券

“1T 模型是入场券”不是说只要 1T 参数就够，也不是说小模型没有价值。它指向一个前沿 Agent 能力门槛：若要对标最强 Agent 系统，基座模型规模、知识、推理、代码和多步任务能力必须达到足够高的底座水平。后训练和框架可以放大模型，但不能凭空制造所有能力。

规模不是唯一答案

参数量只是入口变量。Agent 系统还受训练数据、上下文、代码能力、工具使用、后训练、任务环境、成本和组织执行影响。把“1T 入场券”理解成“堆参数即可领先”是误读。

Post-train 与 pre-train 的平衡

罗福莉认为，顶尖团队预训练与后训练的资源比例已经接近 1:1。这意味着后训练不再是预训练后的尾声，而是与预训练并列的主战场。尤其在 Agent 任务中，后训练直接决定模型是否能适配环境、工具和长程任务。

资源配置是战略判断

卡怎么分，不是财务问题，而是技术路线判断。把卡继续全部堆给预训练，和把足够卡留给 research、post-train、rollout、eval，会得到完全不同的组织能力。

本章小结

Agent 时代的算力分配更均衡、更复杂。前沿竞争既需要大基座，也需要后训练和研究资源。3:1:1 的核心信息是：后训练已经从配角变成主角。

组织平权：为什么 Agent 研究需要多样性

访谈中“组织平权”不是政治口号，而是研究组织方法。罗福莉认为，做后训练需要 diversity，让预训练的人参与后训练是很好的补充。Agent 系统涉及模型、数据、RL、产品、工程、成本、安全和用户环境，单一背景团队很难覆盖全部问题。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{org-equality.png}
\caption{Agent 研究中的组织平权：多职能进入同一研究闭环。}
\end{figure}

读图：组织平权不是平均主义

图中 pre-train、post-train/RL、product/UX、infra/systems、leadership 都连向 Agent research。它说明不同职能都需要进入研究闭环，而不是由某个单一小组垄断判断。平权指信息和责任进入同一系统，而不是每个人做同样工作。

群体智能如何提升 Agent 框架

春节期间，罗福莉推动团队集体使用 OpenClaw。她强调，一个人的想象力有限；当团队成员在大群里展示“原来还能这么用”时，会激发其他人的想象力。群体智能不是抽象概念，而是通过共享使用经验、互相刺激场景想象、快速发现框架能力和短板来提升研究速度。

组织也是训练环境

如果 Agent 能从环境中学习，团队也能从共同使用环境中学习。让团队共同进入新工具、新范式、新任务环境，本质上是在给组织做一次 post-train。

文化与价值观

视频描述强调，这次技术巨变中 AI Lab 的根基是文化与价值观。罗福莉后面也谈到，自己每天做的事要让世界变好一点，让无聊工作被替代，让人有时间做更有价值的事。这个价值观会影响团队如何选择任务、如何定义 benchmark、如何配置资源。

价值观不是装饰

当模型越来越能替代人类工作时，团队选择优化什么、替代什么、保留什么，会变成技术决策的一部分。没有价值观约束，Agent 能力越强，风险也可能越大。

本章小结

Agent 时代的组织能力不只是招更多人，而是让不同背景的人共同进入研究闭环。组织平权、群体智能和价值观，决定一个实验室能否快速拥抱新范式。

另类架构、1T 之后与模型进化史

访谈后半段回顾过去三年的模型进化：ChatGPT 释放短上下文聊天交互；2023 年开源团队追赶预训练；reasoning 阶段代码和数学成为可验证信号；Agent 阶段代码和环境反馈成为长程任务训练入口。罗福莉认为，国内团队在 pre-train 上代差已经很小，下一步竞争在 Agent post-train 和 RL scaling。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{model-evolution-timeline.png}
\caption{过去三年模型进化：从 ChatGPT 到 Agent 后训练。}
\end{figure}

读图：每一阶段如何继承上一阶段

时间线不是替代关系。ChatGPT 让用户感知预训练智能；开源追赶补齐数据和架构；reasoning 让可验证任务成为训练信号；Agent 原型把代码和环境引入长程任务；2026 年则把 post-train scaling 推到主线。

另类架构的意义

罗福莉提到 DeepSeek-V2、MoE、attention 改造等“反主流”选择。另类架构不是为了反主流而反主流，而是在资源受限或成本敏感环境中寻找可扩展研究。一个研究若只是 paper trick，不一定能转化为工业级模型；但若能 scale，并最终形成高水平模型状态，就是有价值的 frontier research。

路线	解决的问题	工业化判断
MoE	用稀疏激活降低单位 token 计算成本	需要路由、负载均衡、训练稳定性和部署效率同时成立。
Attention 改造	降低长上下文和推理成本	要看能否在真实任务中保持质量，而非只看局部 benchmark。
小模型 + 框架	用便宜模型配合 Agent scaffold	适合高频、低成本、可被框架补短板的环节。
1T 基座	提供前沿 Agent 能力底座	是入场券，不是完整答案。

AI 没有生存危机

罗福莉用人类进化和模型进化做对比：人类是在自然环境和生存压力中进化，模型没有自己的生存危机，却拥有大量算力、人类知识和人类帮助。因此 AI 的进化路径可能更自由、更散漫、更快，也更不同于生物智能。这一段提醒我们，不要把人类进化类比生硬套到模型上。

类比的边界

“语言在人类智能中很晚出现”可以启发我们理解 AI 的倒三角结构，但模型环境与人类环境完全不同。AI 的下一步不一定复刻人类身体或感官路径，而可能先在 coding、生产力和数字环境中继续扩张。

每天否认昨天的自己

罗福莉说，过去半年几乎每天都在否认昨天的自己。这个表述很适合 2026 年 Agent 阶段：工具、框架、模型、成本和组织方式都在快速变化。对研究团队来说，稳定不是固守旧判断，而是建立能快速更新判断的机制。

研究速度的来源

研究速度不只来自聪明人，也来自环境：足够算力、足够好的基础设施、足够快的反馈、足够开放的组织和足够明确的价值观。环境比经验更重要，是这期结尾的关键判断。

本章小结

过去三年的模型进化，从聊天交互、开源追赶、reasoning 验证，走到 Agent 后训练。下一阶段的领先取决于可 scale 的架构、后训练系统、资源配置和快速自我否定能力。

当下共识与竞争：国内团队如何追赶

罗福莉认为，Anthropic 的路径正确已经成为共识；在路径更清晰后，国内大模型团队进入加速追赶状态。现在 pre-train 代差很小，甚至国内在某些结构上有优势；真正要 all in 的，是 Agent post-train，尤其是在 Agent 上怎么做好 RL scaling。

Coding 为什么每个范式都重要

Coding 在多个阶段都戳中了关键点。预训练阶段，代码数据质量高、结构清晰；reasoning 阶段，代码和数学有可验证反馈；Agent 阶段，软件开发本身是长程任务，有真实环境、测试、调试和复杂依赖。它既是训练信号，也是产品场景。

Coding 的三重角色

Coding 是数据、评估和产品。作为数据，它结构化且质量高；作为评估，它有测试和运行反馈；作为产品，它直接对应高价值生产力场景。这就是为什么 coding 在每个范式中都重要。

环境比经验更重要

结尾部分，罗福莉强调环境比经验更重要。所谓环境，包括算力、基础设施、芯片、操作系统、流量、社交、组织文化和战略资源。一个团队是否能在新范式中领先，取决于它能否让这些资源合力适配 Agent 架构。

经验可能成为负担

在范式快速变化时，旧经验会帮助判断，也会限制想象。真正重要的是环境能否给团队持续反馈和加速度，使其能不断否认旧判断、重构旧流程。

本章小结

当下竞争的共识是：pre-train 差距缩小，Agent post-train 成为主线。国内团队的机会在于路径更清晰、成本敏感、应用反馈快；挑战在于 RL infra、任务环境和组织重构。

附录：术语索引与复习路线

术语消化：本期关键词索引

术语	一句话解释	在本期中的作用
OpenClaw	触发 Agent 框架共识的产品/开源框架	代表 Agent 范式被产品化展示。
Post-train	预训练之后围绕任务、偏好、环境和反馈继续训练	Agent 时代的主战场。
RL Infra	支撑 rollout、reward、policy update 和 eval 的基础设施	决定 Agent 后训练能否 scale。
Rollout	在任务环境中生成轨迹和交互过程	RL 数据和反馈的来源。
MiMo-V2	小米模型家族的访谈核心案例	展示多模型如何被 Agent 框架编排。
1T 入场券	对标前沿 Agent 能力所需的基础模型规模门槛	说明基座模型仍重要。
组织平权	多职能进入同一研究闭环	解释为什么后训练需要 diversity。
环境比经验重要	研究速度来自算力、infra、组织和反馈环境	结尾的战略判断。

复习路线

建议先读第 2 章理解 Chat 到 Agent 的范式迁移，再读第 3 章掌握后训练闭环，然后读第 4--6 章理解 MiMo 编排、算力分配和组织平权。第 7--8 章适合作为产业判断：为什么 2026 年竞争不再只是基座模型，而是架构、后训练、环境和组织能力的组合。

与 EP139 的连接

EP139 苏煜访谈给出 Agent 技术史和 universal digital agent 框架；EP138 罗福莉访谈则展示一家模型实验室如何把这个框架转化为后训练、模型编排、资源配置和组织重构。两期应连读。

本章小结

本期关键词可以压缩为六个：OpenClaw、后训练、RL infra、多模型编排、算力重配、组织平权。它们共同指向一个判断：Agent 时代的竞争是系统竞争。

训练细节、成本与另类架构：为什么这是系统工程

访谈中“训练细节和成本”虽然章节较短，但它是理解整期的钥匙。罗福莉不断强调，Agent 时代所有路径都要回到端到端完成率、速度和成本。一个模型在 benchmark 上更强，不代表它在 Agent 框架中更优；一个模型更大，也不代表它在所有环节都值得调用。真正的系统工程，是把模型能力、任务阶段、工具调用、延迟、价格和可靠性放在同一张表里做决策。

成本不是财务尾项，而是模型能力的一部分

如果一个 Agent 任务需要几十轮模型调用、工具执行和环境反馈，那么单次调用成本会被长程任务放大。便宜小模型、专用模型、多模型路由、缓存、验证器和框架编排，都会直接影响系统能不能上线。

术语消化：训练与成本词表

术语	解决的问题	与本期关系
端到端完成率	整个任务最终是否完成	Agent 产品不能只看局部动作或单轮回答。
调用路由	不同环节选择不同模型	用大模型做关键推理，小模型做高频低风险环节。
验证器	判断任务结果是否正确	是 RL feedback 和可靠性评估的关键。
Rollout 成本	生成多条轨迹的算力与 API 成本	决定后训练能否 scale。
Latency	用户等待时间和任务总耗时	影响生产力工具是否可用。
Scaffold	Agent 外部框架、工具编排和状态管理	能弥补模型短板，也能放大顶尖模型上限。

另类架构为什么重要

另类架构在这里不是“奇技淫巧”，而是资源约束下的可扩展研究。DeepSeek-V2、MoE、attention 改造等方向，本质上都在问同一个问题：如何在给定算力和硬件条件下获得更好的单位成本智能。Agent 时代这个问题更尖锐，因为长程任务会反复调用模型，任何单步效率差距都会被放大。

不要把另类架构只当论文创新

如果一个架构无法 scale 到工业模型，无法部署到真实推理系统，或无法降低端到端任务成本，它对 Agent 产品的价值就有限。访谈强调的“工业级水准”，正是要求架构创新最终进入可运行系统。

本章小结

训练细节、成本和另类架构共同说明：Agent 时代的技术路线不是“更大模型”单变量竞赛，而是端到端系统效率竞赛。模型结构、后训练、框架和推理成本必须一起优化。

研究心法：每天否认昨天的自己

罗福莉说，过去半年最大的感受是“每天都在否认昨天的自己”。这不是情绪化表达，而是快速范式迁移中的研究心法：当 OpenClaw、Claude Code、Agent 后训练和多模型编排快速出现时，旧判断会以周甚至天为单位失效。团队必须具备快速更新假设、快速重做实验、快速调整资源配置的能力。

从量化到大模型的 reward 变化

访谈中提到，量化投资里价格就是 reward，相对清晰；而大模型赛道的 reward 更不清晰、更变化。Agent 更是如此：任务成功、用户价值、安全边界、成本效率和长期学习都可能成为 reward 的一部分。这要求研究者不只优化一个数字，而要持续定义“什么才是好”。

Reward 不清晰时怎么做研究

当 reward 不清晰，研究不能停止，而要先构造可验证代理指标：任务完成率、人工偏好、成本、失败类型、可恢复性、安全事件、用户留存等。然后不断检查这些代理指标是否真的服务最终价值。

环境比经验更重要

“环境比经验更重要”是本期结尾的战略判断。这里的环境包括算力、基础设施、芯片、操作系统、流量、社交、组织文化和战略资源。经验固然有用，但如果环境不给反馈、不允许试错、不提供算力、不支持跨团队协作，经验会很快变成旧范式的包袱。

环境是研究加速度

经验决定初始位置，环境决定加速度。Agent 时代变化太快，谁能更快获得真实反馈、更多 rollout、更好 infra、更开放组织，谁就更可能在新范式里领先。

本章小结

每天否认昨天的自己，不是没有判断，而是建立能更新判断的系统。Agent 时代的研究心法，是把价值观、实验反馈、资源环境和组织调整连成一个持续学习闭环。

与 EP139 的对照：技术史框架到实验室行动

EP139 苏煜访谈给出 Agent 技术史：Agent 作为实体、环境和目标导向行动的系统，如何从 logical agent、semantic parsing 走到 language agent 和 universal digital agent。EP138 罗福莉访谈则回答另一个问题：当这个范式来到模型实验室内部，团队应该如何行动。

维度	EP139 苏煜	EP138 罗福莉
关注层级	Agent 技术谱系与概念框架	AI Lab 的资源、组织和模型路线。
核心转折	OpenClaw Moment 让 Agent 共识形成	OpenClaw 改变团队研究范式。
关键机制	Language Agent、边界消融、continual learning	Post-train、RL infra、多模型编排、卡分配。
落地问题	reliability、cost、deployment、world model	端到端完成率、成本速度、组织平权、环境反馈。

连读方法

先读 EP139，理解 Agent 为什么是一个长期技术问题；再读 EP138，理解模型团队如何在这个技术问题变成产业共识后调整资源、训练系统和组织结构。

本章小结

两期合起来构成一组：EP139 是 Agent 的概念地图，EP138 是 Agent 时代模型实验室的行动地图。后续Zhang Xiaojun AI 队列可以沿着这两张地图继续整理。

附录二：AI Lab 面对 Agent 范式的行动清单

这期访谈可以转成一份面向模型团队的行动清单。它不是要求每家公司照抄，而是帮助读者把“范式变化”落到可执行问题上。

决策项	需要回答的问题	错误做法
Agent 框架	我们的模型如何接入工具、环境、记忆和长程任务？	只把 Agent 当成复杂 system prompt。
RL infra	rollout、reward、verifier、eval 如何规模化？	只做离线偏好数据，不建设环境闭环。
卡资源	research、pre-train、post-train 如何分配？	继续让预训练独占所有战略资源。
模型家族	哪些环节用大模型，哪些环节用小模型或专用模型？	所有任务无差别调用最大模型。
成本速度	端到端完成率、延迟和价格如何共同优化？	只看 benchmark，不算真实任务成本。
组织结构	预训练、后训练、产品、系统是否共同进入闭环？	让单一团队垄断所有判断。
价值观	替代哪些工作、保留哪些人类价值？	只优化破坏性或短期指标。

行动清单的用途

如果一个团队声称要 all in Agent，但无法回答上表问题，它很可能只是在追热点。真正的 Agent 转型，会反映在资源分配、训练基础设施、模型路由、组织协作和价值观选择上。

本章小结

Agent 范式不是一句战略口号，而是一组具体选择。读者可以用这张行动清单检查任何模型实验室、创业公司或产品团队是否真的进入了 Agent 时代。

附录三：模型实验室自检评分卡

为了把本期访谈转成可执行判断，可以给任何模型实验室或 Agent 创业团队做一个简化评分卡。它不是排名工具，而是帮助读者判断一个团队是否真的理解 Agent 范式。

维度	高分表现	低分信号
范式判断	能清楚说明 Chat、Reasoning、Agent 三阶段的训练和产品差异	只把 Agent 当成工具调用或复杂 prompt。
后训练系统	有任务环境、rollout、verifier、eval、成本监控的闭环	只有离线数据或人工挑样例。
模型编排	能按任务阶段路由大小模型、多模态模型和专用模型	所有任务都调用同一个最大模型。
算力配置	research、pre-train、post-train 有明确比例和迭代节奏	资源被历史路径锁死，后训练没有足够卡。
组织机制	预训练、后训练、产品、系统、评估共同参与决策	单一团队闭门决定，真实用户和工程反馈进不来。
成本意识	端到端完成率、延迟、价格一起优化	只关心能力展示，不关心单位任务经济账。
价值观与边界	明确哪些任务应自动化、哪些需要人类保留判断	只追求替代和增长，不讨论安全、责任和社会后果。

如何使用这张评分卡

读后续Zhang Xiaojun AI 队列时，可以把每期嘉宾观点映射到这七个维度。比如苏煜访谈更偏“范式判断”和“长期学习”，罗福莉访谈则更偏“后训练系统”“模型编排”“算力配置”和“组织机制”。这样多期笔记会逐渐形成一个可比较的 AI Lab 操作系统图谱。

本章小结

评分卡把访谈里的判断变成可复用框架。它提醒读者：Agent 时代不是某个单点技术胜出，而是多个系统维度同时达标。

总结与延伸

核心结论

Agent 时代不是聊天能力增强，而是模型进入环境、工具和长程任务。
OpenClaw 的价值在于触发框架共识，让团队看到模型与 scaffold 互相放大的可能。
后训练尤其是 Agent RL scaling 成为主线，需要任务环境、rollout、reward、eval 和成本控制。
MiMo-V2 的意义在于多模型编排，而不是单个模型发布。
算力分配从预训练独大转向 research、pre-train、post-train 更均衡。
组织平权、多样性和文化价值观会影响 AI Lab 拥抱新范式的速度。
国内团队的追赶机会在 Agent post-train、成本敏感和应用反馈，但挑战在 RL infra 和组织敏捷性。

开放问题

Agent post-train 的主流 reward 和环境形态会是什么？
1T 基座模型是否长期是入场券，还是会被小模型 + 框架逐步侵蚀？
多模型编排会走向统一生态，还是开放市场中的模型路由？
组织平权如何避免变成混乱协作，而真正提升研究速度？
当模型没有“生存危机”时，人类应该如何设计它的价值函数和社会位置？

拓展阅读

EP139 苏煜 Agent 技术史：理解 OpenClaw Moment 与 Language Agent 的历史背景。
Claude Code / OpenClaw / Computer Use Agent 相关材料：理解 Agent 框架如何改变产品形态。
RLHF、RLAIF、verifier、rollout、agent benchmark 相关论文：理解后训练基础设施。
MoE、attention alternatives、multi-modal model orchestration：理解 MiMo-V2 背后的模型系统问题。

最后的判断

Agent 时代的胜负不会由某一个单点模型决定。它更像一场系统竞赛：谁能更快地把模型、框架、任务环境、后训练、算力、产品和组织拧成闭环，谁就更可能在下一阶段领先。