Ep113 Oug6Jrkecrc
导读:K2 为什么是“缸中之脑”长出手
本节先建立整期的技术主线。Kimi K2 是一个基于 MoE 架构的开源编程和 Agentic 大语言模型。访谈里最有力的比喻是“缸中之脑”:只会思考和输出文本的模型像被放在鱼缸里的大脑,和外部世界没有真实连接;而当模型具备编程能力、多轮工具使用能力和外部反馈时,它就开始长出“手”,能操控数字世界。
这期要理解四件事。第一,K2 为什么把基础模型、token efficiency、Agentic 能力和开源放在一起。第二,test-time scaling 为什么同时指向长思考 RL 和 Agent RL。第三,数据墙、FLOPs scaling、Linear Attention、长上下文架构和模型“智商”之间怎样取舍。第四,杨植麟如何把技术判断、商业模式和创始人心态放进“站在无限的开端”这个叙事里。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{brain-in-vat-to-agent.png}
\caption{从缸中之脑到 Agent:编程能力和工具使用让模型开始操控数字世界。自制概念图,依据 00:01:19--00:24:58 对谈内容整理。}
\end{figure}
读图:为什么“手”是关键
模型会思考和会行动是两件事。Code、工具调用、API、文件系统和反馈环境,让模型的推理可以改变外部状态。Agentic LLM 的关键不只是多说几步,而是多轮使用工具并根据结果修正。
本期核心命题
K2 的意义不只是“又一个强模型”,而是把基础模型、编程能力、工具使用、开源生态和 test-time scaling 放进同一个系统:让模型从封闭认知系统走向可行动的数字智能体。
本期系统总览
| 层级 | 核心问题 | 访谈里的答案 |
|---|---|---|
| 哲学层 | 为什么继续攀登? | 问题不可避免,但问题可以解决。 |
| 模型层 | K2 怎样成为强底座? | MoE、token efficiency、Muon、Rephrase。 |
| 行动层 | 模型怎样长出手? | 编程能力、多轮工具使用、Agentic 泛化。 |
| 生态层 | 为什么开源? | 让基础模型能力被外部验证和生态放大。 |
| 商业层 | 怎么赚钱、边界在哪? | API、Agent 产品、基座模型公司和应用公司重新划线。 |
| 组织层 | 创始人如何承受复杂性? | 用 RL 式反馈管理,但警惕被指标 hack。 |
术语消化:本期关键词
| 术语 | 含义 | 为什么重要 |
|---|---|---|
| MoE | Mixture of Experts,按 token/任务路由到不同专家 | 提高参数容量,同时控制每次激活计算。 |
| Agentic LLM | 能多轮使用工具、观察反馈并完成任务的语言模型 | 从聊天走向数字世界行动。 |
| Test-time scaling | 推理时投入更多计算、思考或工具调用 | 让模型在测试阶段继续扩展能力。 |
| Token efficiency | 每个训练 token 带来的能力收益 | 数据墙时代,喂同样数据要“脑子长得更多”。 |
| Muon | 访谈中提到的优化器方向 | 可能提升训练效率,但训练稳定性有挑战。 |
本章小结
EP113 是 K2 发布后的技术判断访谈。它把 Agentic LLM 放在模型公司战略、开源、训练效率、架构取舍和创始人心理之中,适合与 EP119 的 Attention 架构综述、EP115 的 Agent 理论框架对读。
一座无限的山:问题不可避免,但问题可以解决
本章从《The Beginning of Infinity》开始。杨植麟说,问题是不可避免的,但问题是可以解决的;也许这座雪山没有尽头,但他希望它一直没有尽头。这个比喻很适合模型公司:每次模型能力提高,都会解锁新场景,同时展开新问题。预训练、RLHF、长思考、Agentic 能力、工具使用和评价体系,都像雪山不同高度的路线。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{infinite-mountain-map.png}
\caption{一座无限的山:问题不可避免,但问题可以解决;模型进步不断打开新问题。自制概念图,依据 00:00:02--00:05:18 对谈内容整理。}
\end{figure}
读图:无限不是悲观,而是研究氧气
如果山有尽头,模型公司很快会变成纯工程公司;如果山没有尽头,研究、产品和组织都会持续面对新问题。无限的山意味着长期问题空间仍然存在。
Test-time scaling:长思考和 Agent 指向同一方向
上一节讲“问题会继续展开”,本节进入第一个技术判断。杨植麟认为,不管是基于长思考的强化学习,还是 Agent 的强化学习,都指向 test-time scaling。所谓 test-time scaling,就是在推理/测试阶段投入更多计算:更长推理链、更多工具调用、更多验证和更多迭代。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{test-time-scaling-map.png}
\caption{Test-time Scaling:长思考 RL 和 Agent RL 都在扩展推理时计算。自制概念图,依据 00:03:38--00:24:58 对谈内容整理。}
\end{figure}
读图:测试时扩展不是只多输出 token
长思考让模型在内部推理上花更多 token;Agent 让模型通过工具和环境获得外部反馈。二者都在测试阶段花更多计算,只是一个偏内部思考,一个偏外部行动。
Test-time scaling 的直觉公式
其中,\(\text{model}\) 是基座能力,\(\text{test-time compute}\) 是推理阶段额外投入,\(\text{feedback}\) 是验证、工具返回或环境反馈。Agentic LLM 的关键是把后两者做成系统。
L1 到 L5 不一定串行
上一节把 test-time scaling 拆成内部思考和外部行动,本节进一步说明这些能力不一定线性爬楼。访谈提到 L1 到 L5 不一定是串行关系,Claude 就是在 reasoning 不一定最强的情况下,在 Agent 上做得很好。这个判断很重要:模型能力发展不是固定阶梯,Reasoning、Agent、工具、产品和反馈可以并行押注。只有当模型参与到开发过程,才可能解锁真正的 Innovator 阶段。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{l1-l5-agent-ladder.png}
\caption{L1 到 L5 不一定串行:Reasoning 与 Agent 可以并行押注,Claude 是典型例子。自制概念图,依据 00:12:00--00:24:58 对谈内容整理。}
\end{figure}
不要把能力等级当作机械阶梯
如果把 L1 到 L5 理解为必须逐级通关,就会低估产品和系统路线。Agent 能力可能在某些任务上先跑出来,再反过来推动模型训练和工具生态。
L 阶段的教学解释
| 阶段 | 直觉 | 关键变量 |
|---|---|---|
| L1/L2 | 聊天、问答、基础 reasoning | 模型底座与对齐。 |
| L3 | 能使用工具完成明确任务 | 工具接口、任务定义、反馈。 |
| L4 | 参与开发、创新和复杂问题解决 | 长程 Agent、验证、代码能力。 |
| L5 | 更高自主性系统 | 安全、组织、权限和持续反馈。 |
本章小结
“无限的山”给这期提供了精神底色:模型能力每前进一步都会展开新问题;test-time scaling 则给出技术方向:让模型在推理时思考更多、行动更多、获得更多反馈。
K2 是乔戈里峰:基础模型、效率与 Agentic 能力
本章进入 K2。杨植麟把 K2 的目标拆成几个部分:第一,希望它是非常好的基础模型;第二,希望最大化使用每一份数据,也就是提高 token efficiency;第三,希望它有好的 Agentic 能力,能从“缸中之脑”走向多轮工具使用;第四,开源让能力进入生态。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{k2-design-goals.png}
\caption{Kimi K2 设计目标:基础模型、token efficiency、Agentic 能力和开源同时成立。自制概念图,依据 00:24:58--00:54:08 对谈内容整理。}
\end{figure}
读图:K2 不是单点优化
基础模型决定底座,token efficiency 决定同样数据能长出多少能力,Muon 和 Rephrase 是训练效率手段,Agentic 能力决定模型能否使用工具,开源决定生态扩散。
Token efficiency:同样数据,脑子长得更多
数据墙之后,token efficiency 变得更重要。杨植麟的说法是,喂一样多的数据,希望“脑子”长得更多。K2 会对数据做 Rephrase,也关注 Muon 优化器等方向。这些技术不只是为了 benchmark,而是为了在高质量数据越来越稀缺时,提高每个 token 的训练收益。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{token-efficiency-loop.png}
\caption{Token Efficiency 闭环:数据改写、优化器和训练策略提高每个 token 的收益。自制概念图,依据 00:27:28--00:32:44 对谈内容整理。}
\end{figure}
术语消化:训练效率相关概念
| 概念 | 作用 | 风险 |
|---|---|---|
| Token efficiency | 同样 token 带来更多能力 | 难以单独度量,常被其他变量混淆。 |
| Rephrase | 改写数据以增加表达变化 | 改写质量差会引入噪声。 |
| Muon | 优化器方向,可能提升训练效率 | 训练可能不稳定,访谈中提到“会炸”。 |
| Data mixture | 数据配比和课程 | 配错会伤害能力或泛化。 |
Agentic 模型的泛化挑战
上一节讲 K2 的训练效率,本节转向 Agentic 能力的核心难题:泛化。对于 Agentic 模型,最大挑战是泛化。训练环境里的工具、任务和反馈如果太窄,模型可能只会在熟悉场景里表现好;真正有价值的是遇到新工具、新任务、新环境时仍能多轮探索、调用工具并修正行为。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{agentic-generalization.png}
\caption{Agentic 模型的泛化挑战:会用工具不等于能泛化到新任务。自制概念图,依据 00:32:50--00:38:00 对谈内容整理。}
\end{figure}
Agentic 泛化的判断
一个模型是否真正 Agentic,不是看它是否会调用一个固定工具,而是看它能否在未知任务中理解工具说明、规划多步动作、从反馈中修正,并把能力迁移到新环境。
Agentic 泛化的三层测试
| 层级 | 测什么 | 失败样式 |
|---|---|---|
| 工具泛化 | 新 API、新命令、新文档是否能理解 | 只会训练中见过的工具。 |
| 任务泛化 | 新目标和长程依赖是否能分解 | 计划漂亮但无法落地。 |
| 反馈泛化 | 错误返回后能否自我修正 | 一错到底,或重复同一动作。 |
本章小结
K2 的核心是多目标平衡:强基础模型、训练效率、Agentic 泛化和开源生态必须同时成立。任何一个环节短板,都会限制它从模型变成系统。
K2 技术决策蓝图:四个目标如何互相牵制
上一章说明 K2 不是单点优化,本章把这些目标整理成决策蓝图,回答“模型公司到底在同时优化什么”。基础模型、Agentic 能力、开源生态和商业化不是并列口号,而是互相牵制的四个目标。基础模型越强,Agent 产品和 API 越有底气;开源越彻底,生态扩散越快,但商业捕获越难;Agentic 能力越强,工具和反馈越重要,训练和评测也越复杂。
K2 四目标矩阵
| 目标 | 要优化什么 | 会牵动什么 |
|---|---|---|
| Base Model | 通用能力、代码能力、推理能力 | 数据质量、token efficiency、优化器和算力。 |
| Agentic | 多轮工具使用、环境反馈、任务泛化 | RL、测试时计算、工具协议和评测。 |
| Open Source | 外部验证、开发者生态、信任 | 商业捕获、支持成本和竞品复用。 |
| Business | API、产品、企业和开发者付费 | 模型边界、Agent 应用边界和成本结构。 |
为什么这四个目标不能拆开看
如果只有强基座而没有 Agentic 能力,模型仍然像“缸中之脑”;如果只有 Agent 产品而基座不强,泛化会受限;如果开源但没有商业路径,生态难以持续;如果商业化过早,又可能限制研究和开源扩散。
训练效率与产品能力的循环
四目标矩阵里最容易被低估的是训练效率,本节说明它为什么会传导到产品。Token efficiency 看起来是训练指标,但它会影响产品能力。更高的 token efficiency 意味着同样数据和算力下得到更强底座;更强底座让 Agent 更能处理复杂任务;复杂任务产生更多反馈和使用数据;这些反馈又可能进入下一轮训练和产品迭代。这个循环如果跑起来,模型公司就不只是训练模型,而是在构建能力飞轮。
能力飞轮
| 环节 | 作用 | 风险 |
|---|---|---|
| 训练效率 | 降低获得能力的成本 | 优化器或数据策略不稳定。 |
| Agent 产品 | 让模型进入真实任务 | 失败率、工具安全和用户信任。 |
| 反馈数据 | 记录真实任务中的成功和失败 | 噪声大、隐私和选择偏差。 |
| 下一轮训练 | 用反馈修正模型和工具策略 | 评测不准会放大错误。 |
本章小结
K2 的技术决策不是单点最优,而是四目标联合优化。理解这个蓝图,才能理解为什么访谈会在 token efficiency、Agentic 泛化、开源、API 和商业模式之间来回切换。
既简单又复杂的系统:开源、数据墙与架构取舍
上一章讲 K2 设计目标,本章看系统层取舍。为什么从闭源转向开源?为什么多模态不损伤“脑子”已经很好?为什么 Scaling Law 遇到数据墙后,FLOPs、RL、反馈和架构效率要重新平衡?这些问题说明,模型公司并不是只调一个旋钮,而是在复杂系统里不断取舍。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{open-source-strategy.png}
\caption{从闭源到开源:模型与产品完成度、生态传播和商业路径共同影响开源选择。自制概念图,依据 00:54:08--01:05:00 对谈内容整理。}
\end{figure}
读图:开源是技术选择,也是生态选择
闭源有利于控制产品体验和商业化,开源有利于生态扩散、开发者验证和信任建立。K2 开源意味着它既要证明基础模型能力,也要让 Agentic 生态围绕它生长。
Scaling Law、数据墙与 FLOPs
上一节讨论开源和生态,本节回到模型训练的硬约束。杨植麟认为 Scaling Law 遇到数据墙是客观事实。高质量数据增长变慢以后,继续 scale 数据不再像过去那么简单;于是 FLOPs scaling、RL、环境 feedback、数据飞轮和架构效率的重要性上升。当前看,基于 FLOPs 的 scaling 仍然有效,但未来平衡点可能变化。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{scaling-data-wall.png}
\caption{Scaling 与数据墙:数据墙之后,FLOPs、RL、反馈和架构效率重新平衡。自制概念图,依据 01:03:00--01:10:00 对谈内容整理。}
\end{figure}
数据墙不是训练停止
数据墙不是说没有数据了,而是高质量、低噪声、可带来边际能力提升的数据变稀缺。模型公司仍然可以通过更好数据配比、合成数据、RL、工具环境和 test-time scaling 继续推进。
数据墙后的四条路
| 路线 | 解决什么 | 代价 |
|---|---|---|
| FLOPs scaling | 用更多计算继续压 loss | 成本高,依赖硬件供给。 |
| Data efficiency | 同样数据训练出更多能力 | 需要更好过滤、改写、配比和优化器。 |
| RL/feedback | 从环境反馈中创造新学习信号 | reward 噪声和安全问题更难。 |
| Architecture | 用新结构降低长上下文/推理成本 | 可能引入能力 bias。 |
Linear Attention 与“智商”风险
数据墙之后,架构效率会变得更诱人,本节讨论这种诱人的风险。访谈提到,很多 long context 架构会影响“智商”;纯粹 Linear Attention 可能因为架构 bias 影响模型能力。这个判断和 EP119 的 Attention 架构综述形成呼应:降低长上下文成本很重要,但如果架构改变牺牲了推理、记忆或表达能力,就可能影响模型上限。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{linear-attention-iq-risk.png}
\caption{Long Context 架构与智商风险:Linear Attention 降成本,但 bias 可能影响模型能力。自制概念图,依据 01:17:17--01:20:00 对谈内容整理。}
\end{figure}
术语消化:架构取舍
| 路线 | 收益 | 风险 |
|---|---|---|
| Full Attention | 表达力强、经验成熟 | 长上下文成本高,KV cache 压力大。 |
| Linear Attention | 成本低、长序列友好 | 架构 bias 可能影响能力。 |
| Sparse Attention | 降低计算,保留部分全局性 | 选择机制和硬件效率复杂。 |
| Hybrid | 效率和能力折中 | 比例、训练稳定和评测更复杂。 |
基座模型公司与 Agent 产品公司的边界
前面讨论模型内部的架构取舍,本节把问题推向产业边界。长期看,基座模型公司和 Agent 应用公司的边界并不固定。基座模型公司掌握模型能力、训练数据、API 和平台生态;Agent 应用公司掌握场景、工作流、用户入口和反馈数据。谁能把模型能力转成真实任务闭环,谁就能占据更高价值位置。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{agent-product-boundary.png}
\caption{基座模型公司 vs Agent 应用公司:长期边界取决于模型、数据、工具和用户入口。自制概念图,依据 01:09:00--01:15:00 对谈内容整理。}
\end{figure}
边界判断
如果 Agent 产品只是一层薄 workflow,边界会被基座模型公司吞掉;如果 Agent 产品拥有强场景、强数据回流和高频用户入口,它就可能反过来定义模型需求。
商业模式对照:API、产品与生态
| 模式 | 优势 | 风险 |
|---|---|---|
| API | 易规模化,开发者可接入 | token 价格竞争,离用户价值远。 |
| Agent 产品 | 更接近任务和用户入口 | 需要产品、工具、反馈和可靠性。 |
| 开源生态 | 扩散快,信任和开发者参与强 | 商业捕获更难,支持成本高。 |
| 闭源产品 | 体验可控,商业闭环清晰 | 生态扩散和外部验证受限。 |
商业模式还有一个成本侧问题:Agentic 任务通常比普通聊天消耗更多推理时计算。一个简单问答可能只需要一次模型调用;一个复杂 Agent 任务可能需要计划、搜索、工具调用、验证、重试和总结。这样会让“用户价值”和“推理成本”之间的差距变大:如果任务价值高,Agent 成本可以被吸收;如果任务只是低价值聊天,成本很容易压垮毛利。
Agent 成本结构
| 成本项 | 来自哪里 | 降本方式 |
|---|---|---|
| 模型调用 | 多轮规划、执行、反思 | 小模型路由、缓存、任务拆分。 |
| 工具调用 | 搜索、代码、浏览器、API | 更好的工具协议和失败恢复。 |
| 验证成本 | 测试、检查、人工确认 | 自动验证器和风险分级。 |
| 上下文成本 | 长历史、文件、代码库、网页 | 记忆压缩和检索策略。 |
本章小结
K2 背后的系统取舍包括开源策略、数据墙、FLOPs scaling、架构效率和产品边界。它不是单点技术竞赛,而是模型公司在复杂系统中的多变量优化。
在自己的故事里面:RL 管理、恐惧与文明放大器
本章回到创始人视角。Tim 说要用 RL 的方式管理,而不是只用 SFT。这个比喻很有意思:SFT 像给团队看标准答案,RL 像设定目标和反馈,让团队在探索中学会策略。但 RL 管理的风险是容易被 hack,也就是团队可能优化指标而不优化真实目标。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{rl-management-sft-risk.png}
\caption{用 RL 管理,而不是只用 SFT:目标、反馈和奖励会塑造团队,但也容易被 hack。自制概念图,依据 01:25:05--01:34:00 对谈内容整理。}
\end{figure}
读图:管理隐喻为什么有用
SFT 管理强调示范和标准答案,RL 管理强调目标、反馈和探索。模型训练和组织管理都需要 feedback,但 feedback 设计不好就会被 hack。
复杂性与故事
上一节讲 RL 管理会塑造团队,本节回到创始人如何理解这种复杂性。杨植麟说很多复杂性是人为强行加上的,实际并没有那么复杂;但创始人仍然要在自己的故事里面感受自己是什么样的人,为什么做这件事。这不是逃离技术,而是承认模型公司是技术系统和叙事系统的叠加:技术路线需要判断,组织需要意义,创始人需要在不确定性里继续行动。
AI 是人类文明的放大器
访谈中提到,Kimi 对“AI 是什么”的回答是:AI 是人类文明的放大器。这个定义把模型从工具提升到文明尺度:它放大知识、生产力、组织能力,也放大人的恐惧、误解和中间状态的争议。
创始人故事里的三种复杂性
| 复杂性 | 来源 | 应对方式 |
|---|---|---|
| 技术复杂性 | 模型、数据、架构、产品同时变化 | 回到可验证问题和下一步实验。 |
| 组织复杂性 | 团队、反馈、舆论、管理指标互相影响 | 用反馈校正,但防止 reward 被 hack。 |
| 叙事复杂性 | 中间状态会被外界误读或批评 | 在自己的故事里保持行动方向。 |
恐惧与当前一步
面对舆论风暴和创业起伏,杨植麟承认肯定有恐惧,但更重要的是关注当前这一步能做什么。这个态度和“无限的山”互相呼应:如果问题不可避免,恐惧也不可避免;但问题可以解决,所以行动要回到下一步。
中间状态一定会被批评
任何复杂系统在中间状态都不完美,也都可能成为批评对象。模型公司尤其如此:能力、产品、开源、商业化、组织和舆论都处在动态平衡中。不能因为中间状态被批评,就停止解决问题。
本章小结
最后一章把技术判断放回创始人故事。K2 不只是模型发布,也是一次关于无限问题、组织反馈、恐惧管理和文明放大器的自我叙事。
总结与延伸
本节把整期压缩成五个结论。第一,Agentic LLM 的关键是从“缸中之脑”走向能使用工具的数字行动者。第二,test-time scaling 同时包括长思考和 Agent 工具反馈。第三,K2 把基础模型、token efficiency、Muon/Rephrase、Agentic 泛化和开源生态放在同一套设计中。第四,数据墙之后,FLOPs、RL、反馈和架构效率会重新平衡,Linear Attention 等低成本路线必须警惕能力 bias。第五,模型公司不仅要解技术题,也要解开源、商业模式、组织反馈和创始人心态题。
关键判断清单
| 判断 | 为什么成立 | 仍需观察 |
|---|---|---|
| Agentic 是下一个主线 | 模型已经能写代码、用工具、长程执行 | 泛化和可靠性是否能持续提升。 |
| Token efficiency 变重要 | 高质量数据边际变稀缺 | 数据改写和优化器是否稳定。 |
| 开源有战略意义 | 生态验证和开发者扩散很强 | 商业捕获和维护成本。 |
| 架构效率不能牺牲智商 | 长上下文成本必须降 | Linear/Sparse/Hybrid 的能力上限。 |
| 商业边界会重画 | API、Agent 产品、生态互相牵制 | 谁掌握用户入口和反馈数据。 |
把 EP113 放进张小珺 AI 队列
EP119 讲 Attention 架构考古,EP115 讲 Agent 下半场理论,EP116 讲企业级 Agentic Model;EP113 则给出模型公司视角:K2 如何把基础模型、Agentic 能力和开源生态结合,并在数据墙后寻找新的 scaling 路线。
关键 takeaways
- K2 的价值在于基础模型能力、编程/工具使用、Agentic 泛化和开源生态的组合。
- Test-time scaling 是长思考与 Agent 工具使用的共同抽象。
- Token efficiency 是数据墙时代的核心训练指标之一。
- Linear Attention 等长上下文架构要同时看效率和“智商”风险。
- 开源、API、Agent 产品和基座模型边界,是模型公司商业化的关键问题。
与前后几集的关系
| 节目 | 主题 | 与 EP113 的连接 |
|---|---|---|
| EP119 | Kimi Linear、DeepSeek、MiniMax 注意力架构 | 解释 K2 背后的 Attention/长上下文架构取舍。 |
| EP115 | Agent 下半场、reward、interface | 给出 Agentic LLM 的理论框架。 |
| EP116 | 企业级 Agentic Model | 展示 Agentic 能力在 ToB 私有数据场景的落地版本。 |
| EP118 | VLA、Agent OS、物理世界入口 | 把“模型长出手”从数字世界推向物理世界。 |
开放问题
前面给出结论,本节保留真正没有定论的部分。它们不是结尾装饰,而是 K2 之后模型公司和 Agent 产品公司都要继续回答的问题。
- 数据墙之后,FLOPs scaling、RL feedback 和架构效率会怎样重新分配预算?
- Linear Attention、Sparse Attention、Hybrid Attention 哪条路线能在能力和成本之间胜出?
- 开源模型如何在生态扩散和商业捕获之间找到平衡?
- Agentic LLM 的泛化应该如何评测,特别是在未知工具和未知任务上?
- 基座模型公司会吞掉 Agent 应用,还是 Agent 应用会反过来定义基座模型需求?
开放问题的价值
这些问题不是附录,而是模型公司真实决策的核心。K2 的意义也正在于它把这些问题同时暴露出来:模型、数据、工具、生态、商业和组织没有一个可以单独解决。
术语对照附表
| 术语 | 可记忆解释 | 在本期中的位置 |
|---|---|---|
| 缸中之脑 | 只有认知、没有行动接口的模型 | 导读和 Agentic LLM 主线。 |
| 万能构造器 | 能利用工具改变世界的行动者 | Agent 能力和人类类比。 |
| 数据墙 | 高质量训练数据边际变稀缺 | Scaling 与数据飞轮讨论。 |
| 智商风险 | 降成本架构可能损害模型能力 | Linear Attention 取舍。 |
| RL 管理 | 用目标和反馈塑造团队探索 | 创始人组织隐喻。 |
拓展阅读
- 对 Attention 架构取舍感兴趣,可对照 EP119 的 Kimi Linear / MiniMax M2 / DeepSeek 注意力综述。
- 对 Agent 理论感兴趣,可对照 EP115 姚顺雨访谈,理解 reward、multi-agent 和 interface。
- 对企业落地感兴趣,可对照 EP116 吴明辉访谈,观察 Agentic Model 在 ToB 私有数据场景中的形态。