跳转至

Ep136 U1Lzp 7Ybn8

LaTeX 源码 · 备用 PDF · 观看视频

导读:这一季报的情绪为什么复杂

这一期“全球大模型季报”的核心情绪是两面的:一方面,Coding 与 Agentic workflow 让 AI 从聊天机器人走向能干活的系统,模型能力和研究效率都在加速;另一方面,这种加速正在把白领工作、研发组织和社会分配推入通缩与失业窗口。广密的核心判断是:Coding 是新的 AI 加速器,领先的 Coding 模型像领先的 GPU,会成为 AGI 进程中的关键放大器。

本期核心命题

如果 Chatbot 是第一幕,Coding/Agent 是第二幕,那么模型公司下一阶段竞争不只是“谁聊天更强”,而是谁能把模型接入代码、工具、任务环境和真实工作流,并把这种能力变成新一代操作系统。

视觉策略说明

本视频是固定访谈/音频播客画面,没有教学 slides、白板或产品演示。按本仓库播客标准,正文不重复插入人物帧;封面用于来源识别,正文用概念图和表格承载综述结构。

本章小结

本期不是新闻流水账,而是一次季度级框架更新:Coding 变成 AGI 加速器,模型公司竞争窗口重排,模型可能成为新一代 OS,社会影响开始从“应用效率”走向“岗位结构”。

Coding 是 AGI 第二幕

访谈中最强的判断,是 Coding 把 AI 从 Chatbot 第一幕推向 Agent 第二幕。Chatbot 的核心是问答、搜索、总结和对话;Coding 的核心是把自然语言意图转成可执行方案,让模型直接改代码、跑任务、调工具、处理数据和构建系统。它让 AI 从“描述世界”进入“改造数字世界”。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{coding-second-act.png}
\caption{Coding 是 AGI 第二幕:从聊天到干活,再到模型 OS。}
\end{figure}

读图:为什么 Coding 是转折点

图中第一幕是 Chatbot,价值来自信息压缩;第二幕是 Coding/Agent,价值来自完成工作;第三幕是 Model as OS,模型成为用户意图到应用执行之间的调度层。Coding 的关键不是写代码本身,而是代码能表达数字世界的大多数解决方案。

“语言即世界,代码即方案”

访谈里有一句很适合作为本章标题的话:自然语言是对世界的描述,代码是对 solution 的描述。自然语言能表达意图,代码能表达执行路径。若模型能稳定写代码,它不仅能回答问题,还能操作文件、调用 API、处理数据、自动化流程、构建产品。这也是为什么 Coding 模型被类比为 GPU:它不是单个应用,而是加速器。

Coding 作为加速器

GPU 加速模型训练,Coding 模型加速人类和 AI 的研究/工程循环。一个想法从两三周跑通变成两三天,意味着实验吞吐、产品迭代和研究反馈都被压缩。

研究员不再亲自写代码

广密提到,前沿实验室研究员和强程序员已经大量减少亲自写代码,转向“AI 写,人来审”。如果 AI 能达到 CTO 或首席架构师级别的实现能力,人类工作会从写实现转向定方向、审设计、验结果和承担责任。这和 EP139 的 Agent 生产化、EP138 的后训练系统形成呼应。

不要把“人不写代码”理解成“人不重要”

人类不写大量实现代码,不等于退出工程。真正稀缺的能力会转向定义问题、识别错误、设计实验、组织系统和判断价值。审查能力、架构能力和任务定义能力反而更重要。

本章小结

Coding 之所以是第二幕,是因为它把 AI 从语言输出变成行动系统。它不仅提升程序员效率,也会加速 AI 研究本身,成为 AGI 路线中的核心放大器。

硅谷体感:模型进步窗口重新洗牌

广密的体感是,过去一个季度模型水平提升的幅度超过 2025 年全年,Opus 4.5 到 4.6 这一类跃迁让模型从 chat 问答进入真正 agentic 模式。访谈把硅谷“御三家”放在一个动态窗口里看:OpenAI、Anthropic、Gemini 各自有窗口期,今天的胜利秘籍可能成为下一阶段的毒药。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{frontier-lab-map.png}
\caption{访谈观点中的硅谷模型公司位置图。}
\end{figure}

读图:这不是客观排名,而是路径依赖图

图中整理的是访谈观点:Anthropic 在 Coding/Agent 上窗口好;OpenAI 的 ToC 成功可能拖慢 Coding 战略;Gemini 资源和生态强但声势不足;Meta 被视为挑战者;xAI 受战略摇摆和团队问题影响。读者应看路径依赖,而不是把它当固定排名。

Anthropic:技术细节和文化基因

访谈中,Anthropic 被认为抓住了 Coding/Agent 的窗口。它不是 day 1 就想清楚所有事,但创始人 hands-on 看数据、重视技术细节、文化面试严格,这些使它更容易在新范式出现时组织资源。这里的重点是:文化不是口号,而会影响团队是否重视某类数据、某类产品和某类能力。

OpenAI:过去胜利可能成为毒药

OpenAI 在 ChatGPT 的 ToC 成功,反而可能让组织长期专注聊天入口和消费者产品,从而忽视 Coding。访谈中的判断是,过去时代的胜利秘诀可能成为下个时代的毒药。对模型公司来说,战略惯性和组织奖励机制可能比单点技术短板更危险。

Gemini、Meta 与 xAI

Gemini 被评价为模型能力强、生态位好,但 Coding 严重落后,Google 的战略失误在于没有更早把 Coding 作为主线。Meta 被视为新挑战者,取代 xAI 成为四号种子;xAI 则因战略摇摆和 founding team 流失被认为短期掉队。这里反映的是:前沿模型竞争已经不只是模型参数,而是组织、战略、产品和执行力。

硅谷御三家的真实问题

领先模型公司不重视 Coding,就可能掉出第一梯队。因为 Coding 是模型进入数字世界的执行接口,也是加速自身研究的核心工具。

本章小结

模型公司窗口在快速轮换。谁能把 Coding/Agent 变成组织主线,谁就可能抓住第二幕;谁被上一阶段成功锁住,谁就可能掉队。

Harness Engineering:模型如何进入真实工作流

访谈提到 Harness Engineering,意思是模型本身之外,还需要一层把模型接进真实工作流的工程系统。没有 harness,模型只是一个强接口;有了 harness,模型才能连接代码库、测试、权限、日志、重试、部署和反馈。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{harness-engineering.png}
\caption{Harness Engineering:从模型到真实工作流的中间层。}
\end{figure}

读图:为什么模型强还不够

图中模型只是第一层。Harness 负责提示、工具、权限、状态和重试;Workflow 是真实代码库和业务流程;Feedback 把测试、用户反馈、成本和失败案例带回系统;Improvement 才能进入后训练和产品迭代。

术语消化:Harness 相关词表

术语 解决的问题 本期中的意义
Harness 把模型接入工具和工作流的外部系统 决定模型能否稳定干活。
Workflow 真实任务流程,如 issue、测试、部署 模型价值最终发生在 workflow 中。
Feedback 测试、用户、成本、失败案例 让系统可学习和可改进。
Permission 权限与安全边界 避免模型越权操作。
Retry / Recovery 出错后重试和恢复 决定长程任务能否稳定完成。

为什么它和后训练相关

Harness 不只是产品工程,也会反过来影响训练。一个好的 harness 能产生更清晰的失败案例、更真实的任务轨迹、更可验证的反馈。这些都能变成后训练数据。EP138 罗福莉谈 Agent post-train 时强调任务环境和 rollout,和这里是同一条逻辑。

不要把 harness 当 UI 包装

UI 只是 harness 的一小部分。真正的 harness 包括状态管理、工具执行、安全、日志、评估和反馈回流。只做一个漂亮界面,不能让模型可靠进入生产。

本章小结

Harness Engineering 是模型变成生产力系统的桥。它把模型能力接进真实任务,并把任务反馈带回训练和产品迭代。

模型成为新一代 OS

访谈提出“模型是新一代操作系统”。这不是说模型替代 Linux、Windows 或 iOS,而是说模型可能成为用户意图和应用执行之间的新调度层。过去 OS 管理硬件、文件、进程和应用;未来模型/Agent OS 可能管理意图、工具、上下文、权限和任务状态。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{model-as-os.png}
\caption{模型作为新一代 OS:意图理解、工具调度和状态记忆。}
\end{figure}

读图:Model OS 管什么

图中模型 OS 位于中心,连接用户意图、应用服务、数据记忆、执行环境和安全权限。它支持的判断是:模型不只是一个 app,而可能成为新应用入口和任务调度层。

为什么 Coding 是 OS 化入口

代码是数字世界最强的形式语言。模型如果能写代码、改代码、调用 API、运行脚本,就能跨越单个 app 的边界,成为操作多个系统的中间层。Coding 因此是模型 OS 化的关键入口。

从 app 到 OS 的变化

App 是单一功能入口;OS 是资源和任务调度层。模型若能理解意图、调用工具、管理上下文和执行任务,就会从 app 走向 OS 位置。

中国御三家与模型 OS

访谈提到中国御三家,但重点不在具体排名,而在一个结构判断:国内模型团队若要抓住第二幕,需要同时理解 Coding、Agent、成本和应用场景。模型 OS 的竞争不是只做一个聊天产品,而是接入办公、开发、内容、数据、自动化和企业流程。

本章小结

模型成为新一代 OS,意味着模型从回答系统变成任务系统。Coding 和 harness 是它进入这个位置的关键路径。

社会影响:白领通缩与失业窗口

本期的另一半情绪来自社会影响。Coding 模型把顶尖研发人员生产力放大十倍到几十倍,研究和工程周期被压缩,组织自然会重新计算人力需求。白领通缩与失业窗口并不是远期科幻,而是生产力跃迁后组织吸收能力不足的现实问题。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{social-impact-chain.png}
\caption{Coding 加速器如何传导到白领通缩与失业压力。}
\end{figure}

读图:社会冲击链条

链条从 Coding 模型跃迁开始,传导到研发周期压缩,再到组织需求变化,最终形成工资和岗位压力。关键不是“AI 会不会替代人”这句空话,而是技术扩散速度是否超过组织和社会制度的吸收速度。

为什么是白领先感受到

Coding、写作、分析、产品、运营、研究这些白领任务,很多都发生在数字世界,输入输出可被文本和代码表达,因此更容易被模型接入。蓝领和实体世界任务受机器人、硬件、环境复杂度限制,扩散速度可能更慢。

生产力提升不自动带来福利提升

如果生产力收益集中在少数公司、少数顶尖个体或资本端,普通白领可能先经历工资压力和岗位减少。技术红利如何分配,是社会问题,不是模型能力自然会解决的问题。

投资新思考

投资层面,本期暗含一个判断:若 Coding 是加速器,模型和工具链公司会重新估值;若模型成为 OS,应用入口和平台格局也会重排。但投资不能只看热词,而要看模型是否进入真实工作流、是否产生可持续反馈、是否有成本优势和分发入口。

本章小结

Coding/Agent 的社会影响来自生产力压缩。它会带来新公司、新入口和新投资机会,也会带来白领岗位重估、工资压力和制度挑战。

季度时间线:为什么这一季不是普通更新

本期季报把 2026 年第一季度描述为一个“推背感”极强的阶段:模型从聊天进入 agentic 任务,Coding 让研发周期被压缩,前沿实验室的产品和 feature 发布频率显著上升。这里的关键不是某个单点模型,而是能力、工具、组织和工作流同时发生变化。

从 2023 到 2026 的季报主线

阶段 主线 本期如何继承
2023 ChatGPT 释放聊天范式,开源开始追赶 第一幕是“模型会说话、会回答”。
2024 AGI 基建、推理、self-play RL、o1 叙事出现 模型开始从回答转向推理和行动。
2025 分化收敛、全家桶、垂直整合、AI War 模型公司开始围绕产品和生态整合。
2026 Q1 Coding/Agent 成为第二幕主线 模型进入数字工作流,开始改造研发组织。

季度报告的价值

单条新闻容易夸大短期噪音;季度视角能观察哪些判断持续成立。本期最重要的延续判断是:Coding 去年还是预言,今年已经变成海啸。

本章小结

EP136 的意义在于把过去几季的判断串起来:模型从聊天、推理、产品生态,走到 Coding/Agent 这个能直接改变工作流的阶段。

Coding 为什么像 GPU:加速器而不是应用

把 Coding 模型类比为 GPU,是本期最有解释力的比喻。GPU 本身不是一个消费应用,但它让训练和推理成为可能;Coding 模型也不只是 IDE 插件,而是让研究、工程、数据处理、实验和产品迭代加速的基础设施。

三种加速路径

加速路径 发生在哪里 影响
个人生产力放大 顶尖研究员、程序员、架构师 1% 人才被放大 10–50 倍,想法到实验的周期压缩。
组织研发吞吐 feature、数据 pipeline、多模态实验 原本数周的迭代缩到数天,产品发布频率上升。
AI 加速 AI 模型帮助写训练代码、评估脚本、调试实验 AI 研究本身被 AI 工具加速,形成递归反馈。

为什么代码是数字世界的杠杆

自然语言表达问题,代码表达解决方案。只要任务发生在数字系统里,代码就能连接数据、工具、环境、权限和执行。模型掌握 coding,等于掌握了数字世界的操作杆。

本章小结

Coding 是加速器,不是单一应用。它放大个人、组织和 AI 研究自身,因此可能成为 AGI 第二幕的关键基础设施。

硅谷御三家的路径依赖

本期对 Anthropic、OpenAI、Gemini 的评价,核心不是八卦,而是路径依赖。每家公司上一阶段的成功,会塑造下一阶段的组织注意力。Anthropic 的 underdog 文化和 coding/agent 投入让它站上窗口;OpenAI 的 ChatGPT ToC 成功可能让它忽视 coding;Gemini 的生态和模型能力强,但战略上更像领先追随者。

逐项对比

公司 访谈中的优势 访谈中的风险 对 Coding 第二幕的启示
Anthropic 重视细节、文化严格、Agent/Coding 窗口强 优势会被追赶,规模化仍有挑战 早投入工作流会形成窗口。
OpenAI 品牌、模型、产品和资本强 ToC 成功可能成为战略惯性 过去成功会遮蔽新主线。
Gemini 生态、资源、模型能力强 Coding 落后、声势不足 生态不能替代明确战略。
Meta 开源、资本、人才和挑战者位置 产品闭环不稳定 开源可能是后发追赶路径。
xAI 资源和关注度高 战略摇摆、团队流失 组织稳定性比明星叙事重要。

不要把公司判断当成永久结论

本期是季度快照,不是长期排名。模型公司窗口期可能以月为单位变化。更稳定的分析方法,是看路径依赖:组织奖励什么、忽视什么、谁能更快拥抱新范式。

本章小结

硅谷御三家的比较,本质是战略注意力比较。Coding 第二幕会奖励那些把模型、产品、数据和工程闭环放到同一条主线上的公司。

中国御三家与成本优势

本期也提到中国御三家。虽然转写里没有展开太多细节,但结合前后语境,中国模型公司的优势更可能来自成本、工程速度、应用场景和开发者生态,而不是单点 benchmark 碾压。Coding/Agent 场景尤其看重成本,因为长程任务会放大每一次模型调用。

为什么成本是战略变量

在聊天场景中,贵一点的模型也许还能被用户接受;在 Agent 场景中,一个任务可能需要几十轮调用、工具执行和验证。如果单位调用成本太高,产品就难以规模化。国内便宜好用模型若能接入好的 harness,就可能在大量中高频任务上获得优势。

成本优势不是低端优势

便宜模型不是只能做低价值任务。Agent 框架可以把便宜模型用于高频步骤,把强模型用于关键判断。多模型路由会让成本结构成为竞争力。

本章小结

中国模型公司的机会在于:如果能把成本优势、工程速度和应用反馈接入 Coding/Agent 工作流,就可能在第二幕获得差异化位置。

社会应对:白领通缩之后怎么办

本期最沉重的部分,是白领通缩和失业窗口。技术上,Coding 模型压缩研发周期;组织上,少数人能完成更多任务;经济上,白领劳动价格会被重新定价。问题不是“AI 会不会替代人”,而是社会能否给被替代或被重组的人提供新位置。

三类人会先受到冲击

人群 为什么先受影响 应对方向
重复性知识工作者 工作可被文本、表格、代码表达 转向任务定义、审核、客户理解和流程设计。
初级程序员 大量实现代码可由模型生成 学会架构、测试、review、系统理解。
中层协调者 信息转发和进度管理可被工具自动化 转向判断、资源配置、跨团队冲突解决。

再培训的真正目标

再培训不应只是教人“用 AI 工具”,而应训练人定义问题、验证结果、组织工作流和理解业务。工具会变,判断力和责任结构更慢变。

本章小结

白领通缩是技术扩散速度超过组织吸收速度的结果。社会应对不能只靠个人学习,也需要企业组织和制度设计重新分配生产力红利。

模型 OS 的产品结构:从聊天入口到任务入口

把模型称为新一代 OS,最容易被误解成夸张说法。更准确地说,模型可能成为“任务入口”:用户不再先打开某个 app,而是先表达目标,再由模型选择工具、调用服务、组织上下文、执行动作并返回结果。这个转变会重塑应用分发、SaaS 形态和企业软件采购逻辑。

三层产品结构

层级 职责 竞争焦点
模型层 理解意图、规划任务、生成代码或动作 基座能力、Coding 能力、工具使用能力。
Harness 层 接入应用、权限、记忆、日志、重试、评估 工作流可靠性、成本、安全和可观测性。
应用层 承载具体业务对象和用户关系 数据、场景、分发、用户习惯和付费。

为什么 OS 化会威胁应用入口

如果用户通过模型表达目标,而模型负责选择应用和调用服务,传统 app 的入口价值会下降。应用仍然重要,但可能从“用户主动打开”变成“模型按任务调度”。

企业软件的变化

企业软件过去围绕人类操作界面设计:表单、按钮、流程、权限和报表。Agent 时代,企业软件还需要提供可被模型调用的 API、可读状态、可审计日志和可恢复操作。谁能更早把产品变成 agent-friendly workflow,谁就更容易进入模型 OS 的调度网络。

Agent-friendly 软件的特征

清晰 API、明确权限、可验证状态、可回滚动作、结构化日志、低成本沙盒和良好文档。没有这些,模型再强也难以安全稳定地操作企业系统。

本章小结

模型 OS 不是替代操作系统内核,而是成为任务调度层。未来软件竞争会从“谁拥有界面入口”转向“谁能被模型可靠调用”。

投资框架:如何看 Coding/Agent 公司的价值

本期最后谈到投资新思考。若 Coding 是 AI 加速器,投资判断就不能只看用户增长或模型榜单,而要看一家公司是否掌握工作流、反馈和成本结构。一个 Coding/Agent 公司如果只是套壳调用模型,壁垒很薄;如果能积累真实任务数据、失败案例、工具集成和用户工作流,壁垒会更深。

四个判断维度

维度 要问的问题 好信号
工作流深度 是否进入用户每天必须完成的任务? 代码库、测试、部署、数据流程深度接入。
反馈闭环 是否积累可训练的失败和成功轨迹? 有结构化日志、评估和人类修正数据。
成本结构 是否能用多模型路由降低单位任务成本? 大模型只做关键步骤,小模型处理高频任务。
分发入口 是否拥有用户习惯或生态位? IDE、企业系统、浏览器、团队协作入口。

投资叙事里的常见陷阱

“我们是 Agent 公司”不是壁垒;“我们接了最新模型”也不是壁垒。真正的壁垒通常在工作流深度、数据反馈、组织执行和分发入口,而不是 prompt 包装。

本章小结

Coding/Agent 投资要从 demo 转向 workflow。能否沉淀反馈、降低成本、占住入口,比短期模型能力展示更重要。

就业冲击分层:哪些岗位先变

白领通缩不是均匀发生的。Coding/Agent 会先影响那些任务数字化程度高、输出可验证、流程可拆解的岗位。它不一定马上消灭整个职业,但会先重组岗位内部的任务比例。

岗位冲击矩阵

岗位/任务 先被压缩的部分 更难替代的部分
初级程序员 样板代码、简单 bug、脚本、接口封装 架构判断、复杂系统理解、上线责任。
数据分析 清洗、SQL、报表、可视化初稿 指标定义、业务解释、因果判断。
产品/运营 文档、竞品总结、流程配置 用户洞察、取舍、组织协调。
研究助理 文献整理、实验脚本、结果汇总 问题提出、实验设计、失败解释。
管理协调 状态同步、会议纪要、排期 冲突解决、资源取舍、责任承担。

职业变化的真实形态

AI 不一定一次性替代岗位,而是先替代任务。岗位会被重组:低判断、高重复、可验证的部分被自动化;高责任、高上下文、高取舍的部分变得更重要。

本章小结

就业冲击应按任务颗粒度分析。最先被压缩的是数字化、重复性、可验证任务;最难替代的是责任、判断、组织和价值取舍。

与 EP139、EP138、EP137 的连接

EP139 讲 Agent 技术史,说明为什么 digital agent 会成为新范式;EP138 讲模型实验室如何为 Agent 重配后训练、算力和组织;EP137 讲 AI for Math 如何把 Agent 式闭环推向科学发现;EP136 则把这些判断放进季度产业图景中,问模型公司、应用、就业和投资会如何重排。

四期连读路线

先读 EP139,建立 Agent 技术框架;再读 EP138,理解模型实验室如何行动;再读 EP137,看 AI 进入数学研究;最后读 EP136,把这些变化放回产业、公司和社会层面。

本章小结

EP136 是前几期的产业化总览:它把 Agent、后训练、AI for Math 的技术变化,转译成公司战略、模型 OS 和社会冲击。

术语消化:本期关键词索引

术语 一句话解释 在本期中的作用
Coding 模型 能理解、生成、修改和调试代码的模型 被视为 AGI 第二幕加速器。
Agentic Workflow 模型在工具和环境中多步完成任务 让模型从聊天变成干活。
Harness Engineering 把模型接入真实工作流的工程层 决定模型能力能否稳定落地。
Model OS 模型作为意图到应用执行的调度层 解释模型为何可能重塑应用入口。
白领通缩 白领劳动供需和工资受自动化挤压 社会影响主线。
Forward Deployment 工程师贴近客户部署 AI 系统 反映 Agent 落地仍需强服务。
Coding as GPU Coding 模型像 GPU 一样加速研究/工程 本期最有解释力的比喻。

本章小结

本期术语围绕一个中心:Coding 把模型变成生产力加速器,并推动模型公司、应用生态和社会结构重新定价。

附录:转写校正与复习路线

本期无平台字幕,自动转写对模型名和英文术语有若干误听。整理时需要把转写中的近似音统一到标准术语,否则会影响后续检索和跨期比较。

术语消化:常见误听校正

标准术语 常见误听/近似写法 校正理由
Chatbot Charbot、拆的 GTT 第一幕的交互形态。
Anthropic AnswerPick、Ansropic 硅谷御三家之一,本期重点公司。
Claude Code Cloud Code、Cowl Code Coding/Agent 工作流代表工具。
Codex CodeX、代码模型泛称 OpenAI coding 工具体系。
Gemini Germline、Gemline Google 前沿模型体系。
Harness Engineering Harness、哈尼斯工程 模型进入真实工作流的中间层。
Model as OS 模型操作系统、模型 OS 本期关于未来模型形态的核心判断。
White-collar deflation 白领通缩 社会影响部分的关键词。

复习路线

如果只读一遍,建议按四步复习。第一,读第 2--3 章,理解 Coding 为什么从应用变成加速器。第二,读第 4--6 章,理解模型公司路径依赖、harness 和 model OS。第三,读第 7--10 章,理解社会冲击、投资框架和岗位重组。第四,把本期与 EP139、EP138、EP137 连起来,看 Agent 技术史、模型实验室、AI for Math 和产业季报之间的关系。

本期的最短总结

Coding 是数字世界的执行语言;Agent 是模型进入环境的方式;Harness 是模型进入工作流的桥;Model OS 是模型成为任务入口的终局想象;白领通缩是生产力跃迁后的社会压力。

本章小结

转写校正让术语稳定,复习路线让季度判断可复用。后续继续整理Zhang Xiaojun AI 队列时,本期可以作为“产业季报/综述类”模板。

总结与延伸

核心结论

  1. Coding 是 AGI 第二幕,因为它让模型从聊天转向执行数字世界任务。
  2. 前沿模型公司的竞争窗口正在重排,上一阶段成功可能成为下一阶段路径依赖。
  3. Harness Engineering 决定模型能否进入真实工作流。
  4. 模型成为新一代 OS 的关键,是它能调度工具、上下文、权限和任务状态。
  5. Coding/Agent 会带来白领通缩和失业窗口,社会吸收速度可能慢于技术扩散速度。

开放问题

  • Coding 模型会不会像 GPU 一样成为所有 AI 研究的基础加速器?
  • 模型 OS 会由现有大厂掌握,还是由新一代 AI-native 应用公司掌握?
  • 白领通缩会先发生在哪些行业,社会如何重新分配生产力红利?
  • 中国模型公司能否借助成本、应用和开发者生态追上第二幕?

拓展阅读

  • EP139 Agent 技术史:理解 Coding/Agent 为什么是更大技术谱系的一部分。
  • EP138 罗福莉访谈:理解 Agent 范式如何改变后训练和算力分配。
  • Claude Code、Codex、OpenClaw 等工具实践:观察 Coding 模型如何改变研发工作流。
  • Harness engineering、agent evaluation、computer use agent benchmark:理解模型进入生产系统的中间层。

最后的判断

如果说 2023 年的问题是“模型会不会说话”,2026 年的问题就是“模型能不能干活”。Coding 是这个转变的第一块硬地面;谁能把它接进真实工作流,谁就更接近下一代 AI 操作系统。