Ep133 Iiby0Fqpthi
导读:这不是人物稿,而是一条研究路线
这期访谈长达六小时四十五分钟,表面上是谢赛宁第一次系统讲述自己的成长、求学、研究、创业和价值判断;更深层的线索,是一个做 computer vision 和 representation learning 的研究者,如何在 LLM 叙事压倒一切的时刻,重新定义“视觉”“世界模型”和“机器人大脑”。因此,这份笔记不会按流水账逐字复述,而是把访谈整理成一条可学习的研究路线。
本期有三条主线。第一条是个人路线:从上海交大 ACM 班、UCSD、FAIR、DeepMind、NYU 到 AMI Labs,每次选择都围绕“和谁做、做什么问题、是否有足够资源”。第二条是技术路线:从视觉任务、层次化表征、视频理解到 predictive world model。第三条是组织路线:当研究问题需要远超论文实验室的资源,又不适合被产品军备竞赛完全吞没时,创业公司要怎样保留 research oxygen。
本期核心命题
谢赛宁在访谈中反复强调:LLM 是智能系统的重要组成部分,但不是全部。真正面向物理世界的智能,需要从连续、高维、有噪声的信号中学习任务相关表征,预测 action 的后果,并把预测用于 planning、decision making 和安全控制。
视觉策略说明
本视频是固定访谈画面,没有教学 slides、白板、产品演示或可读图表。按本仓库播客标准,正文不重复插入人物帧;封面用于来源识别,正文用世界模型闭环、能力阶梯、组织模型和概念表来承载教学内容。
本章小结
这期节目的价值,不在于知道谢赛宁拒绝过谁、加入过哪里,而在于理解一个技术观点如何经过个人经历、研究品味和组织条件逐渐成形。后文会把访谈拆成:研究轨迹、世界模型定义、LLM 与物理世界的边界、AMI 的组织命题,以及结尾关于智能和哲学引用的反思。
The Normal One:普通人叙事背后的研究选择
访谈开场从纽约、播客、童年和上海交大讲起。谢赛宁反复说自己不是 the chosen one,而是 the normal one。这句话容易被误读成谦虚的姿态;放到整期访谈里,它更像一种研究者自我定位:不要把成功解释成命运赐予的天才脚本,而要解释成长期选择、人与组织、好奇心、失败和偶然共同作用的结果。
他讲童年时,两个元素反复出现:一是母亲带着他四处旅行,二是父亲书房里的大量书。旅行让他接触真实世界的多样性,阅读让他获得抽象世界的入口。九岁有电脑、接触游戏和互联网后,他第一次感到“内容”和表达的爆炸。这些细节在人物稿里是成长故事,在技术笔记里则对应后面世界模型的两个面向:世界需要亲自进入,抽象需要持续建模。
从人物经历读技术路线
这期访谈里,个人经历不是背景花絮。旅行、书、游戏、互联网、电影、纽约街头、研究实习和创业组织,都在回答同一个问题:智能系统到底应该从哪里学习世界?如果只从文本学习,它得到的是人类压缩后的叙述;如果要理解物理世界,就需要重新面对连续信号、身体行动、环境反馈和真实生活。
ACM 班、通识与不过度竞争
前面讲童年和互联网入口,是为了说明兴趣从来不是单点出现的;本节转到 ACM 班,是因为这里第一次把兴趣放进了制度化训练环境。问题随之变成:什么样的教育环境更容易保护长期研究品味?
谢赛宁讲上海交大 ACM 班时,特别强调宽松和通识。比如“学子讲坛”要求学生讲任何与课程无关的东西,可以是哲学、历史、社会或科学。这段内容的教学意义是:早期训练如果只围绕排名和题目优化,很容易得到强执行者;如果允许学生建立广阔兴趣,就更可能形成 research taste。
他也明确说不喜欢过度竞争。这里不是反对竞争,而是反对把所有人压成单一指标。研究的长期价值常常来自非线性路径:先有兴趣,后有问题;先有误打误撞的经历,后有能串起来的主线。过度竞争会缩短时间尺度,让人只追逐当前可计分的任务。
不要把“普通人”理解成低目标
The normal one 不是降低目标,而是拒绝神话式自我叙事。它把注意力从“我是不是天选之子”转向“我能不能持续选择值得做的问题、找到值得共事的人、承担长期的不确定性”。
本章小结
开场的成长故事为整期节目定调:谢赛宁关心的不是单点胜负,而是长期轨迹。这个轨迹后来表现为:不按最确定的名校/大厂路径走,反复选择更贴近自己问题意识的人和组织。
从 Vision 到 Representation:研究轨迹的主线
访谈中最重要的个人线索,是“世界总不让我做 Vision,但我偏要做”。这句话背后有两层含义。第一层是求学和职业选择上的阻力:申请博士时几乎没有理想中的 vision offer,后来靠给 Tu Zhuowen 发邮件才进入 UCSD。第二层是时代叙事的阻力:当 LLM 成为中心后,computer vision 看似退到边缘。但谢赛宁的判断是,如果把 vision 理解成一种 perspective,而不是一组任务,那么它恰恰是通往真实智能的核心。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{trajectory-timeline.png}
\caption{谢赛宁访谈中的研究轨迹:从 SJTU、UCSD、FAIR、DeepMind/NYU 到 AMI Labs。}
\end{figure}
读图:每一次选择都在筛选研究条件
这张时间线不是履历表,而是选择逻辑图。SJTU 阶段提供通识和计算机入口;UCSD 阶段把问题聚焦到 vision 与 representation;FAIR 阶段通过 He Kaiming、ResNeXt 等经历学习顶尖研究品味;DeepMind 和 NYU 阶段让他看到视频、具身任务与组织资源的张力;AMI Labs 则试图把世界模型问题放到一个新的组织形态里推进。
五次实习与非线性研究
博士阶段他做过 NEC Lab、Adobe、Meta、Google Research 和 DeepMind 等实习。有的实习产出了论文,有的没有明显成果。访谈里他并不把“没有产出”讲成失败,而是讲成探索:去不同组织看不同问题,理解不同研究文化,确认自己不想做什么。
这对年轻研究者尤其重要。研究路线并不是把每一步都优化成论文数量,而是让若干看似分散的经历最终形成一个内在问题。谢赛宁后来能把 vision、video、representation、world model 和 robotics 连接起来,正是因为早期没有只在一个狭窄路径上滚动优化。
研究不是 point estimate,而是时间积分
访谈中他用“不要在乎每一个点上的估计”来描述研究评价。单篇论文、单次拒稿、单次实习是否成功,都只是时间轴上的点;一个研究者真正的质量,要看长期积累后的积分。
FAIR、He Kaiming 与 ResNeXt
在 FAIR 的经历是整期访谈的一个关键节点。谢赛宁讲到 He Kaiming 加入 FAIR 后,自己在最后一个月实习中与他合作 ImageNet challenge,并发展出 ResNeXt 相关工作。这里的重点不是“遇到贵人”的故事,而是顶尖研究者如何把普通 idea 打磨成可扩展的 representation 方案。
ResNeXt 的思想可以简化为:在 ResNet 的基础上引入 cardinality,把一个分支扩展成多个并行 group,在相近计算量下获得更好的表征能力。谢赛宁在访谈里还把它和今天的 MoE 直觉相连:稀疏化、分组、可扩展能力,并不是今天才出现的想法。
术语消化:ResNeXt、cardinality 与 MoE 直觉
| 术语 | 解决的问题 | 与本期主线的关系 |
|---|---|---|
| ResNet | 通过残差连接让深层网络更容易训练 | 代表早期视觉表征学习的核心范式。 |
| ResNeXt | 用多个并行分组分支提升网络表达能力 | 体现“同等计算量下更可扩展的 representation”。 |
| Cardinality | 并行分支或 group 的数量 | 比单纯加深/加宽更接近结构化扩展。 |
| MoE | Mixture of Experts,稀疏激活不同专家 | 与分组/稀疏扩展有相通的工程直觉。 |
本章小结
谢赛宁的研究轨迹可以概括为:从具体视觉任务出发,逐渐把 vision 理解成连续高维信号、层次化表征、空间/时间认知和预测性智能的总和。这个定义为后面的世界模型铺路。
Vision as a Perspective:视觉不是一个小领域
上一章把个人研究轨迹串到 representation,这一章则把“为什么一直做 vision”讲清楚。这里的关键不是为旧学科辩护,而是重新定义 vision 在下一代智能中的位置。
当访谈进入“表征的世界”时,谢赛宁提出一个重要区分:computer vision 不只是 classification、detection、segmentation 这些任务集合,而是一种看待智能的 perspective。它处理的是 continuous, high-dimensional, noisy signals,也就是连续空间、高维、有噪声的信号。这类信号很难被简单 token 化,也不天然带有人类写好的标签。
这解释了为什么 LLM 兴起后,他并不沮丧。LLM 的成功把语言接口、多模态系统和更大规模训练推到前台,反而让 vision 有机会摆脱单个任务,进入“真实世界智能”的大范围问题。真正的危险不是 LLM 太强,而是所有视觉问题都被迫服从语言模型的叙事,最后把视觉退化成 prompt 和 caption 的附庸。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{representation-ladder.png}
\caption{从视觉任务到预测性世界模型:访谈中的能力阶梯。}
\end{figure}
读图:从 task 到 world model 的能力迁移
图中的 L0 到 L4 不代表官方分级,而是对访谈逻辑的重构。早期视觉任务解决分类、检测、分割;多模态阶段让语言成为接口;再往后,系统必须理解连续事件流、空间结构和 action 后果。终点不是“会看图回答问题”,而是能把视觉流压缩成可用于预测和规划的世界表征。
层次化表征为什么重要
谢赛宁反复提到 hierarchical representation。它的直觉是:智能体不可能把世界每一个像素、每一个分子、每一个物理参数都显式记住;它必须学会抽象。抽象不是丢失信息,而是保留和当前任务、未来行动、决策成本有关的信息。
例如房间里的桌子、话筒、光线、声音、纹理都可以被精细建模,但如果目标是继续对话,系统只需要知道话筒能放在桌上、两个人的位置关系、声音是否能被采集等任务相关状态。这个“足够而非全量”的 state,正是 representation learning 和 world model 的交界处。
表征学习的中心问题
好的 representation 不是把所有细节重建出来,而是把高维信号压缩成足以支持预测、规划和行动的状态。它要比语言标签更接近物理世界,又要比原始像素更抽象。
语言的帮助与污染
语言作为 interface 极其有用。它让多模态系统可以通过自然语言定义问题、提问和给出答案,也让视觉系统更容易对齐人类目标。但语言也可能成为 shortcut。访谈里谢赛宁用“拐杖”和“鸦片”来形容语言对视觉系统的诱惑:语言让系统看起来更聪明,却可能阻止它训练真正处理连续世界的能力。
多模态不等于真实理解
如果一个视觉 benchmark 主要靠语言常识就能答对,那么它并不能证明模型理解了图像、视频或物理世界。语言介入以后,评测必须检查:模型到底用了视觉表征,还是只靠文本先验完成了任务。
本章小结
Vision as a perspective 的核心是:视觉不是被 LLM 接管的小任务,而是构建世界模型所需的底层认知问题。它要求模型处理连续信号、层次抽象、空间结构、事件流和真实行动后果。
世界模型:从公式、控制到机器人大脑
本期最硬的技术部分,是谢赛宁对世界模型的定义。他没有把 world model 当成流行词,而是回到控制、model-based reinforcement learning 和认知科学里的基本问题:给定当前状态和动作,预测下一状态;再用这种预测指导 planning 和 decision making。
其中,\(s_t\) 表示当前时刻系统或环境的状态;\(a_t\) 表示智能体采取的 action 或 intervention;\(f\) 是学到的 transition / predictive function;\(s_{t+1}\) 是执行动作后可能进入的下一状态。真正困难的部分不在公式,而在:怎样从高维感知中得到合适的 \(s_t\),怎样让 \(f\) 学到物理规律,怎样把预测用于行动而不是只生成漂亮样本。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{world-model-stack.png}
\caption{世界模型的最小闭环:感知、状态表征、转移预测、规划决策、真实反馈和学习更新。}
\end{figure}
读图:世界模型不是一个单独模块
图中最重要的是闭环。感知输入先被压缩成任务相关 state;模型根据 state 和 action 预测下一状态;规划器比较不同未来轨迹;动作执行后得到真实反馈;误差和失败再回流训练。少掉任何一环,world model 都会退化成静态生成器、问答器或离线表征模型。
Model Predictive Control 的直觉
前面公式说明了 world model 的最小形式;现在需要回答它怎样变成行动。MPC 提供了一个最朴素也最有教学价值的答案:用模型想象未来,再只执行当前最该做的一步。
访谈中提到 model predictive control。它的基本做法是:在当前时刻,用模型 roll out 多个未来 action sequence,计算每条轨迹的 cost,选择 cost 最低的序列,执行第一步,然后下一时刻重新规划。这不是 LLM 式的“说出理由”,而是以预测未来状态为基础的行动选择。
术语消化:世界模型相关概念
| 术语 | 一句话解释 | 在本期中的作用 |
|---|---|---|
| State | 描述系统当前状态的最小充分信息 | 连接表征学习与行动预测。 |
| Action / Intervention | 智能体对环境施加的动作或干预 | 让预测从观察变成决策。 |
| Transition Function | 从当前 state 和 action 预测下一 state 的函数 | 世界模型的核心形式。 |
| Planning | 比较未来轨迹并选择动作 | 让模型预测服务目标。 |
| MPC | Model Predictive Control,滚动预测与控制 | 展示世界模型如何用于控制。 |
| Model-based RL | 用环境模型辅助强化学习 | 说明 world model 与 RL 的历史关系。 |
World model 是目的,不是单一算法
谢赛宁特别强调,世界模型不好定义,是因为它不是一个算法名,而是一个目的。语言模型、video diffusion model、3D representation、robotics、VLA、model-based RL,都可能从不同方向走向 world model。争论“谁才是真的 world model”在短期内有意义,但长期看更重要的问题是:这个系统是否能理解物理世界、保留相关 memory、reason and plan、做 counterfactual / causal inference,并且 controllable and safe。
世界模型的五项能力
面向物理世界的 world model 至少要具备:physical world understanding、large associated memory、reasoning / planning、counterfactual or causal inference、controllability and safety。它不是“视频生成得像不像”这么单一的指标。
本章小结
世界模型的底层定义很简单:预测 action 后的 state。难点在于 state 的表征、预测的物理接地、planning 的可用性和反馈闭环。把 world model 当成目标,而不是某个模型架构,可以避免被短期名词战带偏。
LLM 的贡献与边界:虚拟空间不是全部世界
前面已经建立世界模型的定义,接下来要把它和 LLM 区分开。这个区分很重要,因为访谈并不是反 LLM,而是在问 LLM 的成功到底覆盖了世界的哪一部分。
谢赛宁并不否认 LLM 的革命性。他说自己要感谢 LLM,因为没有 LLM,多模态智能也不会扩展到今天的规模。但他反对把 LLM 叙事扩展成“语言模型自然通往 human-level intelligence”。在他的框架里,LLM 更擅长 digital / virtual space:文本、代码、知识总结、教育、法律、搜索和 agentic coding 等。它可以成为智能系统的重要元素,却不是世界模型的根基。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{llm-vs-world-model.png}
\caption{LLM 与世界模型:两种智能市场的对比。}
\end{figure}
读图:语言模型和世界模型互补,但不能互相替代
左侧 LLM 的强项是 token 化后的知识、文本推理和数字空间操作;右侧 world model 的目标是连续信号、物理预测、行动规划和安全控制。二者可以互补:语言提供接口、知识和沟通;世界模型提供物理接地、动态预测和行动能力。把一边强行归约成另一边,会误判技术瓶颈。
为什么语言模型像强监督学习
访谈里有一个很有启发的观点:语言模型常被说成 self-supervised learning,但从另一种角度看,语言本身已经是人类文明加工后的强监督信号。几千年文明、书籍、网页、代码、论文和互联网,把大量世界知识压缩成 tokenized 的文本。训练 LLM 像是下载这些已加工知识,而不是直接学习物理世界。
这解释了为什么 LLM scaling law 能较早出现:它有大量已经被人类整理、标注、沟通化的材料。相反,vision 和 robotics 面对的是 raw sensory data、动作、空间、物理约束和反馈,天然缺少同等规模、同等质量、同等压缩程度的“互联网式标签”。
“免费数据”不等于“无监督数据”
互联网上的文本可以免费抓取,并不意味着它没有人类标签。语言是人类为了沟通而长期压缩出来的结构;模型吃下这些文本时,也吃下了人类已经完成的大量抽象、选择和标注。
杯子摔碎:语言描述遗漏了什么
谢赛宁举了一个简单例子:我们说“杯子掉在地上碎了”,语言只保留了沟通所需的信息。它没有描述杯子的接触、受力、破裂路径、材料性质、碎片飞散和声音。对人类沟通来说,这些细节大多没必要;对一个要在物理世界行动的系统来说,这些细节中的一部分可能非常关键。
所以,语言不是世界本身,而是为了交流而做的压缩。世界模型需要学习的,恰恰是语言压缩之外的那些规律:动力学、空间结构、接触、时序、因果和可行动性。
本章小结
LLM 的成功来自人类知识的巨大压缩和互联网规模。它会继续是智能系统的重要组成部分,但面向物理世界的智能不能只靠语言。世界模型要补的是语言天然省略掉的那部分世界。
从“下载互联网”到“下载人类/世界”
访谈中最有传播力的比喻之一,是“反向 OpenAI”。正向路径是:从互联网下载数据,训练 transformer / GPT,得到语言智能,再推向市场。这个路径之所以成立,是因为互联网已经承载了大量人类写下的知识。世界模型没有同样的 shortcut:真实世界的数据、企业场景、物理过程、机器人任务、传感器反馈,不能简单从网页下载。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{download-internet-to-world.png}
\caption{从“下载互联网”到“下载人类/世界”:世界模型需要真实环境和伙伴闭环。}
\end{figure}
读图:反向路径的关键是合作闭环
左侧是互联网到语言模型的正向路径;右侧是世界、伙伴、任务和数据共同反哺模型的反向路径。图中下方的闭环条件说明:世界模型需要伙伴数据、初始模型、真实任务、评测反馈和安全控制。没有世界参与,世界模型会停留在论文概念或生成 demo。
World model needs the world
谢赛宁说 world model needs the world。这句话是 AMI Labs 组织策略的核心。它意味着世界模型不是一个单公司靠封闭数据就能完成的任务,而需要来自农场、医院、工厂、机器人公司、传感器网络、仿真环境和真实业务场景的合作。
在这个框架里,模型先提供初始能力,进入真实场景创造价值;真实场景产生反馈、错误和新数据;这些数据再反哺模型。这个闭环类似数据引擎,但对象不再只是网页文本,而是物理世界和行动系统。
反向 OpenAI 的本质
正向 OpenAI 下载互联网;反向 OpenAI 要和世界共建数据。前者依赖已有文本语料,后者依赖真实任务、伙伴网络、评测体系和持续反馈。
为什么这不是单纯买数据
前面说 world model needs the world,容易让人以为解决方案只是采购更多物理数据。本节要把这个误解拆开:世界模型真正需要的是数据生成机制,而不是一次性数据库存。
如果世界模型需要的是 action 后果、物理状态、失败恢复、传感器流和领域过程,那么“买一批数据”远远不够。数据要有任务、目标、反馈、评测和持续更新。更重要的是,很多数据只有在模型进入场景后才会出现:模型犯错、人工纠正、系统恢复、用户改变流程,这些都不是静态语料库能提前准备好的。
从 data factory 到 environment factory
本期与 EP134 的数据综述可以连起来看:世界模型需要的不是单次采购的数据,而是能不断产生任务、失败、反馈和评测的环境。未来的数据工厂更像 environment factory。
本章小结
“下载互联网”解决了语言智能的第一阶段;“下载人类/世界”意味着从静态文本转向动态环境。世界模型的竞争,不只是模型参数竞争,也是合作网络、评测体系和真实反馈闭环的竞争。
Research Taste 与《金刚经》:怎样判断问题值得做
访谈中间长段讨论 research taste,并提到《金刚经》里的“如梦幻泡影”。这部分不是玄学插曲,而是研究方法论。谢赛宁关心的是:在高度不确定、评价噪声巨大、短期结果经常误导的研究环境里,怎样保持对问题本身的判断。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{research-taste-map.png}
\caption{Research taste 的构成:问题选择、审美、证据和时机。}
\end{figure}
读图:research taste 不是灵感,而是长期判断系统
图中四个角分别是问题选择、审美、证据和时机。一个研究者要判断什么问题值得做,不能只看当前热度,也不能只看能否快速发论文;还要看这个问题十年后是否仍有意义、证据是否能支持方向、组织资源是否足够、自己是否能忍受长期不确定性。
审美:反对廉价引用和口号
上一段把 research taste 拆成问题、证据、审美和时机;这里先展开“审美”。它不是文风偏好,而是研究者对概念滥用、口号包装和证据偷换的敏感度。
结尾处谢赛宁吐槽把维特根斯坦“语言的边界就是世界的边界”直接拿来给 LLM 背书,也吐槽把费曼的 “What I cannot create, I do not understand” 粗暴拿来给 unified model 背书。他不是反对哲学或名言,而是反对脱离上下文的装饰性引用。
这背后是 research taste 的审美标准:一个论点不能靠名人名言支撑,而要靠定义、假设、机制和证据。哲学可以启发研究,但不能替代 technical argument。
名人名言不是技术论证
把一句哲学或物理学名言贴在论文开头,不能自动证明模型路线正确。高质量研究需要说明:概念在原语境中是什么意思,迁移到 AI 后假设是否仍成立,哪些机制和证据支持这个迁移。
长期主义:从拒稿到时间检验
访谈中还讲到一篇论文曾因细节被拒,后来在另一个会议发表并获得 test-of-time award。这个故事说明,研究价值和评审结果并不总是同步。短期评审可能过度关注格式、细节或当时的主流偏好;长期影响更取决于问题是否真实、方法是否可复用、思想是否进入后续工作。
研究评价的时间尺度
短期评价看 accept / reject,长期评价看这个想法是否改变问题定义、方法工具或社区语言。真正的 research taste 是在短期噪声中坚持长期可复用的方向。
本章小结
Research taste 是本期技术线和个人线的粘合剂。它解释了为什么谢赛宁会选择 vision、选择 FAIR、离开确定路径、创业做 world model,也解释了他为什么反感被口号和热词牵着走。
AMI Labs:组织形式也是技术路线的一部分
当访谈进入 AMI Labs,问题从“世界模型是什么”变成“什么组织能做世界模型”。谢赛宁认为,在学校里资源不足,在大厂里产品周期和榜单军备竞赛会压缩探索空间;传统研究院有自由但难以承担大规模训练和真实场景合作;完全封闭的大模型公司又可能切断学术连接和开放讨论。因此,AMI Labs 试图找到一种中间形态。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{ami-labs-thesis.png}
\caption{AMI Labs 的组织命题:在世界模型主线、研究友好组织、全球伙伴网络、商业闭环和学术连接之间找平衡。}
\end{figure}
读图:组织设计如何影响技术可能性
图中五个节点共同构成 AMI 的命题。世界模型需要长期 research;长期 research 需要资源和组织氧气;真实世界数据需要全球伙伴网络;严肃创业需要商业闭环;研究路线又需要和学术界保持连接。任何一个节点缺失,world model 都可能退化成论文项目、封闭产品或空泛愿景。
不是纯研究院,也不是封闭产品公司
前面的图已经给出 AMI 的五个节点;本节先看最核心的组织张力。世界模型需要研究自由,但创业公司又必须处理资源、客户、资本和交付压力。
谢赛宁说 AMI 既不是 non-profit,也不是纯粹 research lab;它需要 business model。但它也不想成为只围绕产品 deadline 和 benchmark 打转的封闭公司。这个张力很难,因为商业公司必须对资源和结果负责,而世界模型又是高度探索性的方向。
这也是为什么他强调“researcher friendly organization”。如果组织没有足够氧气,研究者即使知道某个问题重要,也会被安排去做短期产品链条里可交付的环节,比如 video captioning、榜单优化或发布周期支持。
组织形式会改变研究空间
同一个研究者、同一个 idea,在学校、大厂、封闭创业公司和研究友好创业公司里,能做的事情完全不同。世界模型这样的大问题,既需要资源,又需要探索自由,还需要真实场景合作。
Yann LeCun 的作用:路线、人格与信任
组织张力讲完后,接下来要看谁来承载这种张力。访谈里 Yann LeCun 不只是共同创始人的名字,而是路线信念、科学家 integrity 和团队心理稳定器的结合。
访谈中,谢赛宁多次谈到 Yann LeCun。他强调 LeCun 并不反对 LLM,而是反对“LLM 自然通向人类级智能”的叙事。他敬佩 LeCun 的地方,一是长期坚持 world model / JEPA / autonomous intelligence 的路线,二是科学家的 integrity,三是个人气质:热爱生活、有广阔世界、能让身边的人感到前方有路。
这段内容对技术组织有启发:founder 或科学领袖不仅提供方向,还提供组织心理。研究问题越不确定,团队越需要有人提供长期信念、及时校正和允许质疑的讨论空间。
本章小结
AMI Labs 的故事说明,技术路线和组织路线不可分。世界模型不是只靠一个模型结构推进的,它需要资源、伙伴、研究文化、商业闭环和长期叙事共同支撑。
“Silicon Valley is LLM-pilled”:叙事、榜单与资源配置
讲完 AMI 的组织选择之后,就能理解为什么访谈会把矛头指向“硅谷叙事”。这里的批评对象不是某个地理地点,而是一个会把问题、榜单和资源绑定在一起的产业系统。
访谈标题里的“硅谷被催眠了”,指的是整个 AI 行业被 LLM 叙事高度组织起来。谢赛宁并不是说 LLM 没价值,而是说一个叙事会定义 benchmark,benchmark 会定义 resource allocation,resource allocation 又会决定研究者能做什么。最后,很多有能力的人不是不想做世界模型、视频理解或物理智能,而是被组织目标分配到更贴近当前价值链的位置。
价值链如何压缩研究空间
访谈中的链条可以概括为:
| 环节 | 表现 | 后果 |
|---|---|---|
| 叙事 | AGI、scaling law、LLM frontier | 定义什么问题“看起来重要”。 |
| 榜单 | Chatbot Arena、数学、代码、通用能力排行 | 指挥团队优化可见指标。 |
| 资源配置 | 算力、人力、发布节奏向榜单和产品集中 | 探索性研究缺氧。 |
| 岗位分配 | 视频理解等问题被拆到 captioning 或产品支持环节 | 真正的 world-model-first 路线难以展开。 |
被叙事催眠的风险
当一个叙事过强时,研究者会把“对榜单有用”误认为“对智能本质有用”。这不是某个公司的问题,而是整个产业价值链对研究问题的筛选效应。
为什么逃出硅谷不是地理问题
“逃出硅谷”不是简单的地理搬家。硅谷仍然有最密集的人才、资本和工程文化,AMI 未来也可能在硅谷设点。真正要逃出的,是单一 LLM 叙事、产品发布周期和榜单军备竞赛对问题定义的控制。
巴黎、纽约、蒙特利尔、新加坡的多地办公室在访谈里不只是行政安排,也对应“world model needs the world”的组织想象:不同地区、不同产业、不同学术网络、不同数据源共同参与。
本章小结
LLM-pilled 的核心问题不是 LLM 太强,而是叙事太单一。世界模型路线需要从现有价值链旁边开出空间,让视频、物理、机器人、工业过程和真实反馈重新成为 AI 研究的一等对象。
机器人、VLA 与预训练下半场
访谈后半段多次回到 robotics。谢赛宁的判断是:在谈 AGI 或 super intelligence 之前,先问能否做出足够可靠、能在家庭环境里承担家务的机器人。很多几岁或十几岁的孩子能做的事,今天的机器人还做不好。这不是四肢硬件单点问题,而是机器人大脑问题。
VLA 与世界模型的分工
VLA 即 Vision-Language-Action,目标是把视觉、语言指令和动作连接起来。它是机器人路线的重要形态,但谢赛宁认为,仅靠把 language model 当 foundation,然后加 action head,不足以解决 world model pre-training 的问题。VLA 可以在具体任务上很强,却未必承担“预训练下半场”的基础层工作。
术语消化:机器人路线中的几个关键词
| 术语 | 解决的问题 | 本期中的含义 |
|---|---|---|
| VLA | 视觉、语言和动作的端到端连接 | 机器人执行任务的重要路线,但不等同于完整世界模型。 |
| Robot Brain | 机器人的大脑或上游智能层 | 需要感知、记忆、预测、规划和控制。 |
| Hardware Scaling Law | 通过更多机器人部署获得更多真实数据和硬件经验 | 本体公司必须面对,但不直接解决大脑预训练。 |
| Imitation Learning | 从示范轨迹学习动作策略 | 短期可用,但依赖数据和任务分布。 |
| World Model Pre-training | 面向连续多模态信号的基础预训练 | 谢赛宁称为预训练的下半场。 |
预训练下半场输入什么、输出什么
主持人追问 world model pre-training 输入什么、输出什么。谢赛宁的回答是:至少长期看,输入应是连续空间、高维、有噪声的多模态信号,开始可以是 video,也可能包括除视觉外的其他 encoder。输出是什么仍是 research question。这个“不知道”很重要:它说明问题还没被过早收敛成固定 recipe。
预训练下半场的开放性
语言模型预训练有清晰形式:next-token prediction。世界模型预训练还没有同样稳定的范式。可能的输入是视频、传感器和多模态流;可能的目标是预测、表征、惊讶、行动后果或可规划状态。这里仍是基础研究问题。
本章小结
机器人是世界模型最自然的出口之一,但机器人公司的短期资源常被硬件部署和具体任务牵引。世界模型路线要补的是上游大脑:能理解物理世界、保留记忆、预测后果,并为 VLA 和机器人控制提供底座。
智能不是一条语言分数线
访谈结尾,谢赛宁讨论 AGI 是伪命题、动物智能和人类自大。他引用动物认知相关书籍,谈到不同生物有不同感知和行动方式:黑猩猩的推理、鸟类缓存食物、鲸鱼交流、狗的嗅觉、蝙蝠的听觉。这里的技术含义是:智能不是在一条语言考试分数线上排序,而是和身体、环境、目标、感知通道和生存任务绑定。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{intelligence-spectrum.png}
\caption{智能不是一条语言分数线:从文本/代码到视觉、行动、身体环境和社会目标。}
\end{figure}
读图:为什么反人类中心视角重要
图中把智能拆成文本/代码、视觉/空间、行动/控制、身体/环境和社会/目标几个维度。LLM 在文本和代码上表现强,不代表它自动拥有身体、环境和行动层面的能力。世界模型的意义,正是把智能重新放回感知、预测、行动和反馈之中。
松鼠智能与孩子家务
访谈中引用 Rich Sutton 的一个视角:与其惊叹模型会写代码或拿数学竞赛奖牌,不如思考造出一只能够在真实世界生存的松鼠有多难。这个说法看似夸张,但它把问题从“人类考试能力”拉回“生命体在世界中行动”的基础能力。
谢赛宁进一步说,几岁孩子或十二岁孩子可以完成很多家务,而今天的机器人还无法可靠承担。这不是贬低 LLM,而是在提醒:真实世界里的感知、动作、恢复、目标和常识,仍是未解决的大问题。
AGI 口号容易遮蔽具体能力
如果不定义环境、身体、目标和评测,AGI 很容易变成空泛标签。更可操作的问题是:系统能否在某个真实环境中可靠感知、预测、行动、犯错后恢复,并逐渐迁移到新任务?
本章小结
智能不是单一尺度。语言能力很重要,但真实世界智能还包括视觉、身体、行动、反馈和社会目标。世界模型路线试图补的,正是这些被语言分数遮蔽的维度。
“42”:哲学引用、命运与世界模型的边界
结尾的“42”来自《银河系漫游指南》的梗:生命、宇宙以及一切问题的答案可能是 42。访谈最后,主持人问“这个世界是一个巨大世界模型吗”“你能预测命运吗”。谢赛宁回答,世界当然可以被看作一个巨大的世界模型,但我们不能预测命运,因为资源不够;也许要用地球或整个宇宙作为计算机,才能得到答案。
这段不是玩笑收尾,而是回到世界模型的边界:world model 是为了在有限资源下做足够好的预测,而不是全知全能地复制宇宙。模型越接近真实世界,越要面对计算资源、表征压缩、目标选择和不可知性的限制。
放开维特根斯坦
前面用“42”提醒世界模型不能假装全知;这里则回到语言和世界的关系。这个小节重要,是因为很多 LLM 叙事正是通过哲学名句把语言能力包装成世界理解。
谢赛宁对维特根斯坦引用的吐槽,实际上是在为世界模型划边界。早期维特根斯坦的语言-世界命题有特定哲学语境,后期又转向语言游戏。把“语言的边界就是世界的边界”直接拿来证明 LLM 能覆盖世界,是语境错配。
如果按后期“语言游戏”的思路,语言的意义来自实践和生活形式,那么这反而更接近世界模型观点:语言不是悬浮的 token,而是在真实世界行动、使用和反馈中获得意义。
语言与世界的关系
语言可以压缩世界、沟通世界、组织经验,但不能替代世界。世界模型要学习的,是语言与实践发生关系的那部分结构:行动、反馈、约束、因果和可预测性。
The normal one 与团队电池
最后回到 the normal one。谢赛宁借 Jürgen Klopp 的说法,把自己想象成团队里的电池:用热情和能量给别人发电。这不是鸡汤,而是 research organization 的一个核心功能。长期探索会有大量沮丧、失败和不确定,团队需要有人维持方向、信任和节奏。
他也承认研究底色常常悲凉:真正开心的时刻可能只有东西做出来的 5% 到 10%。这句话很真实,也解释了为什么世界模型这种方向需要组织文化支撑。没有长期心理韧性,宏大愿景会很快被短期挫败压垮。
本章小结
结尾把技术问题和人生问题压在一起:世界可以被建模,但模型永远受资源和目标限制;语言能启发思考,但不能替代实践;普通人也可以通过长期选择、团队能量和研究品味,进入大问题。
术语消化:本期关键词索引
| 术语 | 一句话解释 | 在本期中的作用 |
|---|---|---|
| World Model | 根据状态和动作预测未来状态的模型 | 访谈的中心技术命题。 |
| Predictive Brain | 面向物理世界的预测性大脑 | AMI Labs 想构建的上游智能层。 |
| State | 对环境的任务相关压缩表示 | 连接表征学习与 planning。 |
| Action | 智能体对环境施加的动作或干预 | 让预测进入控制和决策。 |
| Representation Learning | 学习可复用的抽象表征 | 从 vision 通往 world model 的桥。 |
| Vision as Perspective | 把视觉理解成智能的基础视角,而非任务集合 | 解释 CV 在 LLM 时代的意义。 |
| LLM-pilled | 被 LLM 叙事过度组织资源和想象 | 对硅谷价值链的批评。 |
| VLA | Vision-Language-Action 模型 | 机器人路线的重要但不充分形态。 |
| World Model Pre-training | 面向视频/传感器/物理世界的基础预训练 | 预训练下半场的核心开放问题。 |
| Research Taste | 判断问题、证据、时机和审美的能力 | 解释个人和组织选择。 |
| JEPA | Joint Embedding Predictive Architecture | LeCun 路线中“在抽象表征空间预测”的代表思想。 |
| 反向 OpenAI | 从世界和伙伴网络共建模型,而非只下载互联网 | AMI 的组织和商业隐喻。 |
本章小结
这些关键词都指向同一个问题:下一阶段 AI 是否能从“会处理人类写下来的世界”走向“能在真实世界中预测、行动和学习”。这需要模型、数据、组织和哲学边界同时更新。
总结与延伸
核心结论
- 谢赛宁的个人路线不是成功学,而是研究问题如何通过选择、组织和偶然逐渐成形。
- Vision 不应被理解成一组旧任务,而应被理解成处理连续、高维、有噪声真实世界信号的 perspective。
- 世界模型的最小定义是 \(s_{t+1}=f(s_t,a_t)\),但真正困难的是 state 表征、物理接地、planning 和反馈闭环。
- LLM 是智能系统的重要组成部分,但它主要吃下人类已经 tokenized 的知识,不能自动替代物理世界建模。
- “反向 OpenAI”意味着世界模型不能只下载互联网,而要和真实世界伙伴共建数据、评测和应用闭环。
- AMI Labs 的关键不是“又一家大模型公司”,而是尝试在研究自由、资源规模、商业闭环和学术连接之间找新组织形态。
- LLM-pilled 的问题是单一叙事会定义榜单和资源配置,从而压缩世界模型、视频理解、物理智能等方向的探索空间。
- 智能不是一条语言分数线;真实世界智能要回到身体、环境、行动、反馈和目标。
开放问题
总结之后还需要保留问题意识,因为本期最诚实的地方之一,就是承认世界模型的许多关键答案还没有收敛。下面这些问题,也是后续阅读和继续生成笔记时应该持续追踪的线索。
- 世界模型预训练是否会形成类似 next-token prediction 的稳定范式?
- 世界模型的 state 应该是显式 3D、latent representation、混合结构,还是按任务动态形成?
- VLA 与 world model 的边界会逐渐融合,还是形成上游基础层与下游行动层的分工?
- AMI 式的全球伙伴网络能否真正带来不可替代的数据闭环?
- 当 LLM 榜单逐渐饱和后,产业会不会把资源重新投向 physical intelligence?
拓展阅读
- Yann LeCun, A Path Towards Autonomous Machine Intelligence:理解 JEPA、世界模型和 autonomous intelligence 的长期路线。
- Richard Sutton, Dyna / model-based reinforcement learning 相关论文:理解世界模型、planning 和 RL 的历史关系。
- Model Predictive Control 入门材料:理解“用模型 roll out 未来并选择动作”的控制直觉。
- 视觉表征学习、视频生成、3D representation、VLA 和机器人预训练相关论文:理解世界模型可能的多条入口。
- Frans de Waal, Are We Smart Enough to Know How Smart Animals Are?:理解反人类中心的智能观。
最后的判断
本期最值得带走的不是“LLM 错了、世界模型对了”这种二分,而是一个更精确的判断:LLM 解决了人类已写下世界的一大部分;世界模型要解决的是人类没有写下、也很难写下的世界。下一阶段智能的关键,可能就在这两者之间的桥上。