跳转至

Ep102 Vwryhvsrz0S

LaTeX 源码 · 备用 PDF · 观看视频

\begingroup

\setlength{\parskip}{0pt} \renewcommand{\baselinestretch}{0.92}\selectfont

\endgroup

导读:这期为什么是多模态技术路线课

本节先建立阅读框架。这期是张小珺商业访谈录里少见的高技术密度访谈,李广密作为 co-host,把问题集中在多模态十年史、视觉与语言的差异、o1 范式对多模态的启发,以及未来两年可能出现的 GPT-4 时刻。张祥雨的叙述不是一组论文八卦,而是一条技术路线:CV 曾经持续向 NLP 学习,但静态图像本身和自然语言不同;多模态真正的突破,可能要从 next token prediction、RL、CoT、动作空间和在线学习重新理解。

本期核心命题

多模态的难点不只是“把图像、视频和文本放进一个模型”。静态图像里生成、理解和人类对齐天然分离;视觉生成与视觉理解长期没有真正融合;o1 之后,研究者开始意识到:多模态也可能需要思维链、反思、动作空间扩展和环境反馈,才能出现真正的 GPT-4 时刻。

视觉策略说明

本视频是固定访谈画面,没有 slides 或屏幕演示。正文只使用封面作为来源识别;正文图像全部为自制概念图,用来解释 CV/NLP 迁移史、静态图像三重割裂、生成理解 gap、next token 缺陷、RL/CoT、视觉 Long CoT、long context 多模型协作和在线学习。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{cv-to-nlp-learning-history.png}
\caption{CV 向 NLP 学习的历史:从 ImageNet/ResNet 到 ViT、iGPT、MIM 与多模态大模型。自制概念图,依据 00:02:00--00:17:14 对谈内容整理。}
\end{figure}

读图:CV 的 GPT 时刻没有简单复制 NLP

图中从 ImageNet、ResNet 到 ViT/iGPT/MIM,再到 VLM,展示的是 CV 不断借鉴 NLP 范式的过程。关键问题是:迁移架构容易,迁移数据属性和目标函数很难。语言数据天然来自人类表达,静态图像却不天然包含人类理解。

阅读路线

为了避免被术语淹没,本节给出读这期的四个问题。第一,为什么 CV 向 NLP 学了十年,却没有在静态图像上复刻 GPT?第二,为什么图像生成和图像理解放进一个系统后仍然像两个模型?第三,为什么大模型越大,文科和对话能力更强,但数学推理可能会跳步、退化?第四,为什么 o1 的反思和 CoT pattern 会让多模态研究重新看到路?

阅读问题 访谈中的材料 要形成的判断
CV 为什么难复制 GPT 静态图像、生成/理解/对齐割裂 数据形态决定学习目标,不能只迁移架构。
多模态为何未融合 理解模型和生成模型各自变强但互不增益 缺少共同的思考过程和可控动作空间。
推理为何会退化 大模型数学跳步、next token 压缩缺陷 分布压缩不等于计算精度。
未来突破在哪里 RL、CoT、视觉 Long CoT、在线学习 关键在动作空间、反馈和持续学习。

本章小结

EP102 的主线是:多模态不是“多加一种输入”这么简单。要理解未来两年的 GPT-4 时刻,必须同时理解静态图像数据的特殊性、语言模型目标函数的缺陷、o1 引入的反思模式,以及在线学习对下一代 Agent 的意义。

CV 的十年学习史:从模型 scaling 到 NLP 范式迁移

上一章建立问题,本章回到历史。张祥雨把自己的早期学术主线放在 2012 年后的深度学习 scaling 上:ImageNet 提供大数据,CUDA/GPU 提供算力,AlexNet 证明模型扩大可以显著提升效果,随后 ResNet 等工作进一步打开深层视觉网络。这个阶段的核心是 model scaling:让视觉模型更深、更大、更可训练。

后来 NLP 的 Transformer、BERT、GPT 成为新范式,CV 社区开始把这些方法迁移过来。ViT 把 Transformer 放进视觉;iGPT 尝试像语言一样自回归建模图像;MIM 和对比学习试图通过遮蔽、增强和不变性学习视觉表征。但张祥雨的判断是,许多方法只是把 NLP 的外形搬到了 CV,未必解决静态图像的根本差异。

术语消化:CV 向 NLP 学了什么

术语 机制 本期中的意义
ImageNet 大规模标注图像数据集 让视觉模型第一次有稳定 scaling 数据基础。
ResNet 残差连接支持深层网络训练 证明视觉 model scaling 可行。
ViT 把图像切成 patch,用 Transformer 建模 架构迁移成功,但不等于目标函数迁移成功。
iGPT/MIM 自回归或遮蔽式图像建模 试图复刻语言建模,但受图像数据属性限制。
Contrastive Learning 通过增强视图学习不变性 很依赖人为设计的 augmentation。

课堂提示:不要把“用了 Transformer”当作 GPT 时刻

张祥雨的提醒是,架构只是大方向。ViT、MIM、iGPT 让 CV 学到 NLP 的工具,但静态图像是不是能用同一套目标函数学出生成、理解和对齐,才是真问题。

静态图像为什么不是自然语言

本节进入第一条关键论证。自然语言语料本身是人类生成的,它已经把人类概念、意图、语义和对齐关系写进 token 序列。GPT 在语言上做生成建模时,生成能力、理解能力和人类对齐能在同一目标里相互增强。静态图像则不同:图像是自然世界和成像系统产生的,它不因为人类如何理解而改变。

这就导致三个能力在图像上天然割裂。生成图像可以学像素分布;理解图像需要引入人类语义;人类对齐需要标签、caption、问答、偏好或任务定义。即使模型能生成逼真图像,也不代表它理解场景;即使模型能理解图像,也不代表它能控制生成过程。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{static-image-three-way-split.png}
\caption{静态图像的三重割裂:生成、理解和人类对齐在静态图像中天然分离。自制概念图,依据 00:18:22--00:24:23 对谈内容整理。}
\end{figure}

读图:图像在那里,理解是人加进去的

图中心是 Image,周围是生成、理解、对齐、自然和任务。读这张图时要抓住一句话:图像不天然等于人类语义。杯子、桌子、动作和空间关系需要人类任务框架注入,不能只从像素分布里自动得到 GPT 式语义统一。

本章小结

CV 的十年进展说明,数据、算力、架构和 scaling 都很重要;但它也说明,视觉不是语言的简单替身。静态图像把生成、理解和对齐拆开,多模态必须先处理这个数据形态差异。

生成与理解为什么没有真正融合

上一章解释静态图像的根本差异,本章看张祥雨在多模态系统里的实际挫折。他曾试图把图像生成、图像理解、文字生成和文字理解放进同一个系统:把图像 token 化,用语言式 Transformer 处理多模态,再接入 diffusion 等生成模块。结果是,理解模型越来越强,生成模型也越来越强,但放在一起没有出现 1+1 大于 2 的叠加效果。

最尖锐的证据是:把生成部分拿掉,理解能力并不受影响;把理解模型接到生成模型上,生成可控性仍然差。模型能识别某个视频违反物理常识,却无法阻止自己生成违反物理常识的视频。这说明两条分支还没有共享同一种内部思考过程。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{generation-understanding-gap.png}
\caption{生成与理解未融合:两个分支都变强,但放在一起没有 1+1 大于 2。自制概念图,依据 00:29:10--00:38:45 对谈内容整理。}
\end{figure}

读图:系统连接不等于能力融合

左边理解模型擅长看图、视频和语言对齐;右边生成模型擅长产生图像和视频。中间的 gap 不是工程接口,而是能力无法互相校正。真正的一体化,应当让理解约束生成,让生成过程反过来训练理解。

生成可控性的根本问题

本节把“可控性差”拆开。图像和视频生成模型可以学习高概率视觉模式,但复杂场景需要遵守几何、物理、身份一致性、时间连续性和语义约束。语言提示并不总能把这些约束精确传入生成过程;理解模型也不一定能把“这不合理”转成生成模型内部的可执行修正。

术语消化:生成、理解、对齐、可控性

概念 含义 本期中的问题
生成 产生图像、视频或文本 可能逼真,但不一定可控。
理解 识别对象、关系、动作和语义 可指出错误,但未必能指导生成。
对齐 与人类意图和评价一致 图像对齐依赖语言、偏好和任务定义。
可控性 按约束稳定生成目标结果 多物体、物理和时序约束最容易失败。

生成模型会“知道错”但仍然做错

这不是表面矛盾。判断一个结果是否错,和在生成过程中一步步避免错误,是两种不同能力。前者像批改,后者像规划和执行。多模态系统缺的,正是连接批改和执行的思考链路。

本章小结

多模态一体化的困难在于,理解和生成并不是接上线就能互相增强。它们需要共享可解释、可搜索、可纠错的中间过程;这正是后面 o1、CoT 和视觉 Long CoT 进入讨论的原因。

Next Token Prediction 的缺陷:压缩不等于计算精度

前面的问题发生在视觉,本章转向语言模型,因为张祥雨认为语言模型里也出现了类似的瓶颈。训练大模型时,他观察到一个怪现象:模型越大,通用对话、情商、知识量更强;但数学等局部推理能力可能先上升、后平缓,再继续扩大反而下降。一个线索是,大模型更倾向于“跳步”,不像小模型那样老老实实算。

他的解释指向 next token prediction。这个目标本质上是在建模数据分布,也可理解为压缩:模型越能预测下一个 token,就越能压缩语料。但压缩人类语料的分布,不等于在数学、逻辑、几何和物理任务上保持计算精度。人类语料中有大量跳步、直觉和省略,大模型压缩得越好,可能越学到这些捷径。

\[ L_{\mathrm{NTP}}=-\sum_{t}\log p_{\theta}(x_t\mid x_{<t}) \]

其中,\(x_t\) 是第 \(t\) 个 token;\(x_{<t}\) 是此前上下文;\(p_{\theta}\) 是模型给出的下一个 token 概率;\(L_{\mathrm{NTP}}\) 越低,说明模型越能拟合训练分布。但数学题要求的是步骤正确和结果正确,而不是输出分布看起来像互联网解答。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{next-token-compression-defect.png}
\caption{Next Token Prediction 的缺陷:压缩分布不等于计算精度,越大会越倾向跳步。自制概念图,依据 00:41:11--00:50:48 对谈内容整理。}
\end{figure}

读图:shortcut 是分布学习的副作用

图中从 Data Distribution 到 Compression,再到 Shortcut、Math 和 RL。关键是 shortcut:如果训练分布里有大量省略步骤,模型会学到“像人类答案”的压缩,而不是“每一步都计算正确”的程序。

特征坍缩:高概率特征与精确约束的冲突

本节解释访谈里的“特征坍缩”。生成模型会偏向保留数据分布里最容易压缩、最常见、最稳定的特征;但复杂推理关心的往往是少数关键步骤。数学里一步错全错,图像里一个手指、透视或物理接触错了,整体就失真。分布相似不能替代约束满足。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{feature-collapse.png}
\caption{特征坍缩现象:生成模型会保留高概率特征,却丢失计算和约束精度。自制概念图,依据 00:45:42--00:50:48 对谈内容整理。}
\end{figure}

读图:像训练语料,不等于算对

左侧“分布接近”解释为什么模型语言流畅、知识丰富;右侧“精度不足”解释为什么数学、几何和物理仍会错。多模态推理需要的是精确约束,而不是只让输出更像训练样本。

不要把压缩率当作智能上限

更好的 next token loss 往往提升通用能力,但它不是所有智能任务的充分目标。需要精确搜索、长期规划、外部验证和动作反馈的任务,必须引入额外目标和过程。

本章小结

next token prediction 是大模型起飞的基础,但它也解释了为什么更大模型可能更会跳步。数学、视觉可控生成和多模态推理,都需要超出分布压缩的目标函数。

o1 的启发:RL、CoT 与反思 pattern

上一章指出 next token prediction 的缺陷,本章看张祥雨如何理解 o1。访谈中他的判断很明确:o1 的关键不只是用了 RL,而是激发了一种思维链 pattern。传统 RL 的许多算法名字并不是重点;重点是,模型在预训练中已经见过许多思考、反思、检查和重做的模式,RL 可以把这些模式强化出来。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{rl-cot-pattern.png}
\caption{RL 与 CoT Pattern:RL 不只是算法名,关键是激发可搜索的思考模式。自制概念图,依据 00:50:48--01:01:52 对谈内容整理。}
\end{figure}

读图:RL 不是魔法,pattern 才是杠杆

图中 Pretrain 提供已有模式,RL 用目标反馈强化,CoT 把步骤展开,Reflection 修正路径,Critical Decision 处理关键分支。o1 的启发在于:模型不是凭空学会思考,而是把预训练里稀疏存在的思考 pattern 放大。

Critical Decision:一个 token 解决不了的地方

本节解释为什么反思重要。推理过程中不是每个 token 都同样关键。很多 token 只是表达格式,真正决定成败的是少数 critical decision:走左边还是右边、用哪个公式、是否需要回头检查、某个中间结论是否可靠。当一个分支选择的复杂度超过单个 token 的表达能力时,模型需要展开更多步骤,把决策问题拆成可搜索空间。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{meta-cot-critical-decision.png}
\caption{Meta-CoT 与 Critical Decision:当一个 token 解决不了分支选择,就需要反思和元思维链。自制概念图,依据 01:01:52--01:10:57 对谈内容整理。}
\end{figure}

读图:Meta-CoT 是 CoT 的 CoT

从 State 到 Branch,再到 One token?、Reflect 和 Meta-CoT,图中表达的是“对思考过程再思考”。模型不只是写步骤,而是在关键节点判断当前路径是否足够、是否要回退、是否要换分支。

课堂提示:动作空间比算法名字更关键

张祥雨反复强调,很多时候不是具体 RL 算法多神秘,而是动作空间是否包含正确动作。没有反思动作,模型很难在关键决策点搜索;有了反思动作,RL 才有东西可强化。

本章小结

o1 给多模态的启发是:智能不只是模型更大,还要有可搜索的中间过程。CoT、反思和 Meta-CoT 把不可解的单 token 决策,变成可以分解、试错和优化的动作空间。

视觉 Long CoT:把慢思考搬进视觉空间

上一章讲语言推理,本章回到多模态。张祥雨研究完 o1 后,重新理解视觉生成可控性差的问题:很多视觉生成任务本质上也超过了单步推理复杂度。人类画图或理解空间关系时,并不是一次性从噪声生成完整图像;人会先理解场景,定位局部,检查关系,再逐步修正。多模态如果只做一次性生成,就很容易违反几何和物理约束。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{visual-long-cot.png}
\caption{视觉空间 Long CoT:在视觉空间慢思考,把反思模式迁移到多模态推理。自制概念图,依据 01:10:57--01:24:07 对谈内容整理。}
\end{figure}

读图:视觉 CoT 不是把中文推理写长

图中从 Image/Video 到 Visual Actions、Reason、Reflect 和 Answer。视觉 Long CoT 的重点是让模型在视觉空间做动作:局部观察、标注、回看、比较、生成辅助草稿、修正空间关系,而不只是输出更长的文字解释。

为什么生成也需要 CoT

本节连接视觉理解和视觉生成。张祥雨的路线是先做视觉理解中的 CoT,因为理解更容易获得可验证反馈;但更远的目标是让生成也带上思维链。高可控生成不是一次性画完,而是先理解语义约束,再通过局部生成、检查、修改来逼近目标。对于复杂视频,这一点更关键,因为时间连续性、物理因果和身份一致性都需要跨帧维护。

术语消化:视觉动作空间

动作 含义 为什么有用
局部观察 只看图像或视频的一部分 降低上下文干扰,提高细节判断。
标注/画框 在视觉空间生成中间结构 把隐含空间关系显式化。
回看/比较 对不同局部或时间点做对照 发现不一致和物理错误。
生成草稿 先生成可检查中间结果 让生成过程可反馈、可修正。
反思修正 发现错误后重走路径 把视觉任务变成可搜索过程。

两条腿:预训练语料与动作空间

前面说明视觉 Long CoT 需要动作,本节把路线收束为两条腿。多模态后续路线不是单线。第一条腿是扩充预训练语料:更多高质量图文、视频、生成过程、交互过程和视觉推理数据。第二条腿是扩展动作空间:让模型不仅能看和说,还能局部观察、画图、生成、检查、调用工具、调用子模型、接收反馈。只有数据和动作空间一起扩展,视觉思考才有机会接近语言推理的跃迁。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{two-leg-roadmap.png}
\caption{多模态后续两条腿:扩充预训练语料,同时扩展动作空间。自制概念图,依据 01:31:31--01:45:42 对谈内容整理。}
\end{figure}

读图:数据解决“见过”,动作空间解决“会做”

左侧 Pretraining Data 让模型见到更多视觉和生成过程;右侧 Action Space 让模型在任务中有更多可执行动作。多模态 GPT-4 时刻很可能需要两者同时发生,而不是只继续堆图文对。

研究路线时间线

本节把前面的概念压成一张时间线,帮助读者从研究史而不是热词来理解这期。张祥雨的叙述大致经历四个阶段:第一阶段是 CV scaling,把 ResNet 等模型做深做大;第二阶段是 CV 学 NLP,尝试把 Transformer、BERT/GPT、MIM 和自回归思想迁移到图像;第三阶段是多模态一体化受挫,发现生成和理解没有真正互相增强;第四阶段是 o1 之后重新理解推理,把 RL、CoT、反思和动作空间带回视觉。

阶段 核心动作 得到的教训
2012–2016 ImageNet、AlexNet、ResNet 证明视觉 model scaling 数据、算力和模型同时扩展能打开视觉识别。
2018–2022 ViT、iGPT、MIM、对比学习等向 NLP 学习 架构迁移有效,但目标函数和数据属性未被根本解决。
2023–2024 训练大多模态模型,尝试生成理解一体化 理解和生成各自变强,却不能自动融合。
o1 之后 从 RL、CoT、反思和动作空间重新看多模态 视觉也需要慢思考和可搜索中间过程。
未来两年 long context、在线学习、自主学习和世界模型 GPT-4 时刻可能来自环境反馈和系统协作。

老师强调:迷茫本身是路线证据

访谈中反复出现“做了大半年很迷茫”“后来 o1 出现后想清楚”这类表达。这里的迷茫不是噪音,而是技术路线的证据:如果一个方向通过加数据、加模型、接模块仍然没有 1+1>2,就说明缺的是新的训练目标或动作空间。

本章小结

视觉 Long CoT 是这期最重要的多模态新思路:把 o1 的反思和动作空间思想迁移到视觉,让模型在视觉空间慢思考。它不是简单拉长文字链,而是给多模态模型更多可验证、可搜索、可修正的视觉动作。

Long Context、多模型协作与在线学习

前面讨论多模态理解和生成,本章进入未来两年的两个 GPT-4 时刻。张祥雨认为,long context 很重要,但今天直接把超长上下文塞进一个 Transformer 里有问题:注意力会涣散,上下文越长,相似信息越多,模型越容易被干扰。真正的智能不是把所有东西无损记住,而是能压缩、遗忘、翻书、转移注意力。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{long-context-multi-model.png}
\caption{Long Context 与多模型协作:不用把整本书塞进一个上下文,而是全局规划加局部执行。自制概念图,依据 01:46:56--02:07:09 对谈内容整理。}
\end{figure}

读图:全局规划和局部执行可以分开

图中 Global Planner 保留整体印象,Retrieve/Turn page 负责翻书,Local Worker 做局部推理,Feedback 回传结果,Context Shift 切换情景。这比把所有 token 都塞进同一个上下文更接近人的注意力机制。

为什么架构不是本质

本节解释“Linear Transformer 不本质”。张祥雨不是否认线性注意力或 RNN-like 架构的价值,而是说:如果目标只是通过架构硬扛超长上下文,可能没有触到问题核心。长上下文的核心是如何压缩、如何检索、如何切换情景、如何让多个模型或模块协作,而不只是把注意力复杂度从平方降下来。

不要把大海捞针当成智能本身

为了通过 retrieve 测试,模型可能学到“什么都不能忘”的 bias。但人类读书后写总结时,会记住结构,再按需要翻书找句子。真正有用的 long context 系统,应当允许遗忘、摘要、翻页、局部复查和上下文切换。

术语消化:long context 的两类问题

问题 含义 本期中的判断
计算复杂度 注意力随长度增长带来成本问题 重要,但不是唯一问题。
智能建模 如何压缩、遗忘、转移注意力和局部复查 更接近真正的长程智能。
多模型协作 用 planner 和 worker 分工处理上下文 可减少干扰,并让系统可训练。
情景隔离 做第二题时不必背着第一题全部上下文 避免长上下文污染当前推理。

在线学习与自主学习

如果 long context 是一个潜在 GPT-4 时刻,另一个就是在线学习或自主学习。张祥雨把它和 Agent 联系起来:今天很多 Agent 是应用层工具编排,但更根本的 Agent 应当能在环境中持续行动、接收反馈、改进策略。这里的 scaling 不再只是 model scaling 或 data scaling,而是 environmental scaling:能不能提供足够多、足够真实、足够可验证的环境反馈。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{online-learning-agent.png}
\caption{在线学习与自主学习:下一个 GPT-4 时刻可能来自环境反馈和持续自我改进。自制概念图,依据 02:08:30--02:25:00 对谈内容整理。}
\end{figure}

读图:环境反馈是新的 scaling 对象

图中 Environment、Agent、Feedback、RL/IRL 和 Online Learning 连成闭环。模型不再只从离线语料中学习,而是在任务、工具、世界和人类反馈中持续更新。难点是环境规模、反馈质量和安全边界。

课堂提示:Agent 应用和自主学习 Agent 不是一回事

今天许多 Agent 产品是工具编排和工作流自动化;张祥雨讨论的更根本 Agent,是能在环境反馈中持续改进的学习系统。前者是应用形态,后者是训练范式和智能机制。

世界模型与机器人抢跑

访谈最后把多模态和机器人连接起来。人没有视觉生成器官,但人有世界模型:我们可以在脑中预测空间、物理和行动后果。机器学习系统是否必须通过生成式训练获得世界模型,仍是开放问题;但如果机器人要在物理世界行动,它不能绕过视觉理解、动作反馈和世界模型。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{world-model-robotics-gap.png}
\caption{世界模型与机器人抢跑:人没有生成器官,但有世界模型;机器人不能跳过视觉理解。自制概念图,依据 02:25:00--02:28:44 对谈内容整理。}
\end{figure}

读图:机器人不能只押硬件身体

左边 World Model 负责空间推理、物理常识和未来预测;右边 Robotics 需要视觉、动作、反馈和本体共同过线。机器人行业若跳过视觉推理和世界模型,只靠本体和遥操作,很容易在智能上抢跑。

本章小结

未来两个关键突破方向是 long context 的真实智能建模,以及在线/自主学习的环境反馈闭环。前者要求模型学会压缩、翻书和情景切换;后者要求模型在行动中持续改进。

总结与延伸

本节把 EP102 压缩为七个结论。第一,CV 的 GPT 时刻不能简单复制 NLP,因为静态图像不天然携带人类语义和对齐。第二,多模态一体化的关键难点,是生成和理解无法互相校正。第三,next token prediction 是大模型起飞基础,也是推理跳步和精度不足的来源之一。第四,o1 的关键启发是用 RL 激发 CoT、反思和 critical decision 搜索。第五,视觉 Long CoT 是把慢思考迁移到视觉空间。第六,long context 不只是架构复杂度问题,更是压缩、检索、情景隔离和多模型协作问题。第七,下一个更深的 Agent 时刻,可能来自在线学习和 environmental scaling。

把 EP102 放进张小珺 AI/互联网队列

EP102 是这一批里技术含量最高的多模态路线访谈之一。它连接 EP110 的 Agent 技术报告、EP113 的 agentic LLM、EP115 的 Agent 研究哲学,也为 EP106/EP109 的具身智能问题提供视觉推理和世界模型的上游解释。

术语总表

前面各章已经分散解释了 VLM、CoT、动作空间、在线学习和世界模型。本节把这些术语集中放在一起,方便读者复盘整期论证链:从静态图像的数据属性,到 next token prediction 的目标函数,再到 o1 式反思、视觉 Long CoT 和在线学习。

术语 简明定义 本期中的作用
VLM Vision-Language Model,视觉语言模型 连接图像、视频和文本的主要模型形态。
MIM Masked Image Modeling,遮蔽图像建模 CV 向 BERT 式预训练学习的代表路线。
Next Token Prediction 预测下一个 token 的训练目标 解释语言模型强大与跳步缺陷的共同来源。
CoT Chain of Thought,思维链 把单步决策展开成可搜索过程。
Meta-CoT 对 CoT 的再思考和反思 处理 critical decision 和路径选择。
Action Space 模型在任务中可选择的动作集合 决定 RL 是否能搜索到正确行为。
Online Learning 在线学习,系统在使用中持续更新 可能是下一代 Agent 的关键。
World Model 预测世界状态变化的内部模型 连接多模态、机器人和具身智能。

后续观察问题

本节不是泛泛列问题,而是把访谈里的路线判断转成可追踪的观察点。接下来两年,如果多模态真的出现新的 GPT-4 时刻,应该能在这些位置看到信号:模型不只是 benchmark 上升,而是视觉推理、生成可控性、long context 和在线学习出现新的系统能力。

  1. 视觉 Long CoT 能否在真实 benchmark 上明显提升多模态推理,而不只是生成更长解释?
  2. 生成模型的可控性是否会通过视觉 CoT、局部编辑和反馈训练出现质变?
  3. long context 会继续靠单模型扩窗,还是转向 planner/worker、多模型协作和工具化翻书?
  4. 在线学习如何解决安全、数据污染、反馈稀疏和持续更新成本?
  5. 机器人领域能否在抢跑硬件和本体之前,补上视觉推理、世界模型和动作反馈的基础能力?

拓展阅读

  • 对 Agent 训练和上下文工程感兴趣,可对照 EP110 Kimi K2 / ChatGPT Agent / Qwen3-Coder 技术报告笔记。
  • 对 Agentic LLM 和测试时扩展感兴趣,可对照 EP113 杨植麟 Kimi K2 访谈笔记。
  • 对具身智能的数据和世界模型问题感兴趣,可对照 EP106 王鹤、EP109 谢晨和 EP121 谭捷访谈。