Ep133 Iiby0Fqpthi

导读：这不是人物稿，而是一条研究路线

这期访谈长达六小时四十五分钟，表面上是谢赛宁第一次系统讲述自己的成长、求学、研究、创业和价值判断；更深层的线索，是一个做 computer vision 和 representation learning 的研究者，如何在 LLM 叙事压倒一切的时刻，重新定义“视觉”“世界模型”和“机器人大脑”。因此，这份笔记不会按流水账逐字复述，而是把访谈整理成一条可学习的研究路线。

本期有三条主线。第一条是个人路线：从上海交大 ACM 班、UCSD、FAIR、DeepMind、NYU 到 AMI Labs，每次选择都围绕“和谁做、做什么问题、是否有足够资源”。第二条是技术路线：从视觉任务、层次化表征、视频理解到 predictive world model。第三条是组织路线：当研究问题需要远超论文实验室的资源，又不适合被产品军备竞赛完全吞没时，创业公司要怎样保留 research oxygen。

本期核心命题

谢赛宁在访谈中反复强调：LLM 是智能系统的重要组成部分，但不是全部。真正面向物理世界的智能，需要从连续、高维、有噪声的信号中学习任务相关表征，预测 action 的后果，并把预测用于 planning、decision making 和安全控制。

视觉策略说明

本视频是固定访谈画面，没有教学 slides、白板、产品演示或可读图表。按本仓库播客标准，正文不重复插入人物帧；封面用于来源识别，正文用世界模型闭环、能力阶梯、组织模型和概念表来承载教学内容。

本章小结

这期节目的价值，不在于知道谢赛宁拒绝过谁、加入过哪里，而在于理解一个技术观点如何经过个人经历、研究品味和组织条件逐渐成形。后文会把访谈拆成：研究轨迹、世界模型定义、LLM 与物理世界的边界、AMI 的组织命题，以及结尾关于智能和哲学引用的反思。

The Normal One：普通人叙事背后的研究选择

访谈开场从纽约、播客、童年和上海交大讲起。谢赛宁反复说自己不是 the chosen one，而是 the normal one。这句话容易被误读成谦虚的姿态；放到整期访谈里，它更像一种研究者自我定位：不要把成功解释成命运赐予的天才脚本，而要解释成长期选择、人与组织、好奇心、失败和偶然共同作用的结果。

他讲童年时，两个元素反复出现：一是母亲带着他四处旅行，二是父亲书房里的大量书。旅行让他接触真实世界的多样性，阅读让他获得抽象世界的入口。九岁有电脑、接触游戏和互联网后，他第一次感到“内容”和表达的爆炸。这些细节在人物稿里是成长故事，在技术笔记里则对应后面世界模型的两个面向：世界需要亲自进入，抽象需要持续建模。

从人物经历读技术路线

这期访谈里，个人经历不是背景花絮。旅行、书、游戏、互联网、电影、纽约街头、研究实习和创业组织，都在回答同一个问题：智能系统到底应该从哪里学习世界？如果只从文本学习，它得到的是人类压缩后的叙述；如果要理解物理世界，就需要重新面对连续信号、身体行动、环境反馈和真实生活。

ACM 班、通识与不过度竞争

前面讲童年和互联网入口，是为了说明兴趣从来不是单点出现的；本节转到 ACM 班，是因为这里第一次把兴趣放进了制度化训练环境。问题随之变成：什么样的教育环境更容易保护长期研究品味？

谢赛宁讲上海交大 ACM 班时，特别强调宽松和通识。比如“学子讲坛”要求学生讲任何与课程无关的东西，可以是哲学、历史、社会或科学。这段内容的教学意义是：早期训练如果只围绕排名和题目优化，很容易得到强执行者；如果允许学生建立广阔兴趣，就更可能形成 research taste。

他也明确说不喜欢过度竞争。这里不是反对竞争，而是反对把所有人压成单一指标。研究的长期价值常常来自非线性路径：先有兴趣，后有问题；先有误打误撞的经历，后有能串起来的主线。过度竞争会缩短时间尺度，让人只追逐当前可计分的任务。

不要把“普通人”理解成低目标

The normal one 不是降低目标，而是拒绝神话式自我叙事。它把注意力从“我是不是天选之子”转向“我能不能持续选择值得做的问题、找到值得共事的人、承担长期的不确定性”。

本章小结

开场的成长故事为整期节目定调：谢赛宁关心的不是单点胜负，而是长期轨迹。这个轨迹后来表现为：不按最确定的名校/大厂路径走，反复选择更贴近自己问题意识的人和组织。

从 Vision 到 Representation：研究轨迹的主线

访谈中最重要的个人线索，是“世界总不让我做 Vision，但我偏要做”。这句话背后有两层含义。第一层是求学和职业选择上的阻力：申请博士时几乎没有理想中的 vision offer，后来靠给 Tu Zhuowen 发邮件才进入 UCSD。第二层是时代叙事的阻力：当 LLM 成为中心后，computer vision 看似退到边缘。但谢赛宁的判断是，如果把 vision 理解成一种 perspective，而不是一组任务，那么它恰恰是通往真实智能的核心。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{trajectory-timeline.png}
\caption{谢赛宁访谈中的研究轨迹：从 SJTU、UCSD、FAIR、DeepMind/NYU 到 AMI Labs。}
\end{figure}

读图：每一次选择都在筛选研究条件

这张时间线不是履历表，而是选择逻辑图。SJTU 阶段提供通识和计算机入口；UCSD 阶段把问题聚焦到 vision 与 representation；FAIR 阶段通过 He Kaiming、ResNeXt 等经历学习顶尖研究品味；DeepMind 和 NYU 阶段让他看到视频、具身任务与组织资源的张力；AMI Labs 则试图把世界模型问题放到一个新的组织形态里推进。

五次实习与非线性研究

博士阶段他做过 NEC Lab、Adobe、Meta、Google Research 和 DeepMind 等实习。有的实习产出了论文，有的没有明显成果。访谈里他并不把“没有产出”讲成失败，而是讲成探索：去不同组织看不同问题，理解不同研究文化，确认自己不想做什么。

这对年轻研究者尤其重要。研究路线并不是把每一步都优化成论文数量，而是让若干看似分散的经历最终形成一个内在问题。谢赛宁后来能把 vision、video、representation、world model 和 robotics 连接起来，正是因为早期没有只在一个狭窄路径上滚动优化。

研究不是 point estimate，而是时间积分

访谈中他用“不要在乎每一个点上的估计”来描述研究评价。单篇论文、单次拒稿、单次实习是否成功，都只是时间轴上的点；一个研究者真正的质量，要看长期积累后的积分。

FAIR、He Kaiming 与 ResNeXt

在 FAIR 的经历是整期访谈的一个关键节点。谢赛宁讲到 He Kaiming 加入 FAIR 后，自己在最后一个月实习中与他合作 ImageNet challenge，并发展出 ResNeXt 相关工作。这里的重点不是“遇到贵人”的故事，而是顶尖研究者如何把普通 idea 打磨成可扩展的 representation 方案。

ResNeXt 的思想可以简化为：在 ResNet 的基础上引入 cardinality，把一个分支扩展成多个并行 group，在相近计算量下获得更好的表征能力。谢赛宁在访谈里还把它和今天的 MoE 直觉相连：稀疏化、分组、可扩展能力，并不是今天才出现的想法。

术语消化：ResNeXt、cardinality 与 MoE 直觉

术语	解决的问题	与本期主线的关系
ResNet	通过残差连接让深层网络更容易训练	代表早期视觉表征学习的核心范式。
ResNeXt	用多个并行分组分支提升网络表达能力	体现“同等计算量下更可扩展的 representation”。
Cardinality	并行分支或 group 的数量	比单纯加深/加宽更接近结构化扩展。
MoE	Mixture of Experts，稀疏激活不同专家	与分组/稀疏扩展有相通的工程直觉。

本章小结

谢赛宁的研究轨迹可以概括为：从具体视觉任务出发，逐渐把 vision 理解成连续高维信号、层次化表征、空间/时间认知和预测性智能的总和。这个定义为后面的世界模型铺路。

Vision as a Perspective：视觉不是一个小领域

上一章把个人研究轨迹串到 representation，这一章则把“为什么一直做 vision”讲清楚。这里的关键不是为旧学科辩护，而是重新定义 vision 在下一代智能中的位置。

当访谈进入“表征的世界”时，谢赛宁提出一个重要区分：computer vision 不只是 classification、detection、segmentation 这些任务集合，而是一种看待智能的 perspective。它处理的是 continuous, high-dimensional, noisy signals，也就是连续空间、高维、有噪声的信号。这类信号很难被简单 token 化，也不天然带有人类写好的标签。

这解释了为什么 LLM 兴起后，他并不沮丧。LLM 的成功把语言接口、多模态系统和更大规模训练推到前台，反而让 vision 有机会摆脱单个任务，进入“真实世界智能”的大范围问题。真正的危险不是 LLM 太强，而是所有视觉问题都被迫服从语言模型的叙事，最后把视觉退化成 prompt 和 caption 的附庸。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{representation-ladder.png}
\caption{从视觉任务到预测性世界模型：访谈中的能力阶梯。}
\end{figure}

读图：从 task 到 world model 的能力迁移

图中的 L0 到 L4 不代表官方分级，而是对访谈逻辑的重构。早期视觉任务解决分类、检测、分割；多模态阶段让语言成为接口；再往后，系统必须理解连续事件流、空间结构和 action 后果。终点不是“会看图回答问题”，而是能把视觉流压缩成可用于预测和规划的世界表征。

层次化表征为什么重要

谢赛宁反复提到 hierarchical representation。它的直觉是：智能体不可能把世界每一个像素、每一个分子、每一个物理参数都显式记住；它必须学会抽象。抽象不是丢失信息，而是保留和当前任务、未来行动、决策成本有关的信息。

例如房间里的桌子、话筒、光线、声音、纹理都可以被精细建模，但如果目标是继续对话，系统只需要知道话筒能放在桌上、两个人的位置关系、声音是否能被采集等任务相关状态。这个“足够而非全量”的 state，正是 representation learning 和 world model 的交界处。

表征学习的中心问题

好的 representation 不是把所有细节重建出来，而是把高维信号压缩成足以支持预测、规划和行动的状态。它要比语言标签更接近物理世界，又要比原始像素更抽象。

语言的帮助与污染

语言作为 interface 极其有用。它让多模态系统可以通过自然语言定义问题、提问和给出答案，也让视觉系统更容易对齐人类目标。但语言也可能成为 shortcut。访谈里谢赛宁用“拐杖”和“鸦片”来形容语言对视觉系统的诱惑：语言让系统看起来更聪明，却可能阻止它训练真正处理连续世界的能力。

多模态不等于真实理解

如果一个视觉 benchmark 主要靠语言常识就能答对，那么它并不能证明模型理解了图像、视频或物理世界。语言介入以后，评测必须检查：模型到底用了视觉表征，还是只靠文本先验完成了任务。

本章小结

Vision as a perspective 的核心是：视觉不是被 LLM 接管的小任务，而是构建世界模型所需的底层认知问题。它要求模型处理连续信号、层次抽象、空间结构、事件流和真实行动后果。

世界模型：从公式、控制到机器人大脑

本期最硬的技术部分，是谢赛宁对世界模型的定义。他没有把 world model 当成流行词，而是回到控制、model-based reinforcement learning 和认知科学里的基本问题：给定当前状态和动作，预测下一状态；再用这种预测指导 planning 和 decision making。

\[ s_{t+1} = f(s_t, a_t) \]

其中，\(s_t\) 表示当前时刻系统或环境的状态；\(a_t\) 表示智能体采取的 action 或 intervention；\(f\) 是学到的 transition / predictive function；\(s_{t+1}\) 是执行动作后可能进入的下一状态。真正困难的部分不在公式，而在：怎样从高维感知中得到合适的 \(s_t\)，怎样让 \(f\) 学到物理规律，怎样把预测用于行动而不是只生成漂亮样本。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{world-model-stack.png}
\caption{世界模型的最小闭环：感知、状态表征、转移预测、规划决策、真实反馈和学习更新。}
\end{figure}

读图：世界模型不是一个单独模块

图中最重要的是闭环。感知输入先被压缩成任务相关 state；模型根据 state 和 action 预测下一状态；规划器比较不同未来轨迹；动作执行后得到真实反馈；误差和失败再回流训练。少掉任何一环，world model 都会退化成静态生成器、问答器或离线表征模型。

Model Predictive Control 的直觉

前面公式说明了 world model 的最小形式；现在需要回答它怎样变成行动。MPC 提供了一个最朴素也最有教学价值的答案：用模型想象未来，再只执行当前最该做的一步。

访谈中提到 model predictive control。它的基本做法是：在当前时刻，用模型 roll out 多个未来 action sequence，计算每条轨迹的 cost，选择 cost 最低的序列，执行第一步，然后下一时刻重新规划。这不是 LLM 式的“说出理由”，而是以预测未来状态为基础的行动选择。

术语消化：世界模型相关概念

术语	一句话解释	在本期中的作用
State	描述系统当前状态的最小充分信息	连接表征学习与行动预测。
Action / Intervention	智能体对环境施加的动作或干预	让预测从观察变成决策。
Transition Function	从当前 state 和 action 预测下一 state 的函数	世界模型的核心形式。
Planning	比较未来轨迹并选择动作	让模型预测服务目标。
MPC	Model Predictive Control，滚动预测与控制	展示世界模型如何用于控制。
Model-based RL	用环境模型辅助强化学习	说明 world model 与 RL 的历史关系。

World model 是目的，不是单一算法

谢赛宁特别强调，世界模型不好定义，是因为它不是一个算法名，而是一个目的。语言模型、video diffusion model、3D representation、robotics、VLA、model-based RL，都可能从不同方向走向 world model。争论“谁才是真的 world model”在短期内有意义，但长期看更重要的问题是：这个系统是否能理解物理世界、保留相关 memory、reason and plan、做 counterfactual / causal inference，并且 controllable and safe。

世界模型的五项能力

面向物理世界的 world model 至少要具备：physical world understanding、large associated memory、reasoning / planning、counterfactual or causal inference、controllability and safety。它不是“视频生成得像不像”这么单一的指标。

本章小结

世界模型的底层定义很简单：预测 action 后的 state。难点在于 state 的表征、预测的物理接地、planning 的可用性和反馈闭环。把 world model 当成目标，而不是某个模型架构，可以避免被短期名词战带偏。

LLM 的贡献与边界：虚拟空间不是全部世界

前面已经建立世界模型的定义，接下来要把它和 LLM 区分开。这个区分很重要，因为访谈并不是反 LLM，而是在问 LLM 的成功到底覆盖了世界的哪一部分。

谢赛宁并不否认 LLM 的革命性。他说自己要感谢 LLM，因为没有 LLM，多模态智能也不会扩展到今天的规模。但他反对把 LLM 叙事扩展成“语言模型自然通往 human-level intelligence”。在他的框架里，LLM 更擅长 digital / virtual space：文本、代码、知识总结、教育、法律、搜索和 agentic coding 等。它可以成为智能系统的重要元素，却不是世界模型的根基。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{llm-vs-world-model.png}
\caption{LLM 与世界模型：两种智能市场的对比。}
\end{figure}

读图：语言模型和世界模型互补，但不能互相替代

左侧 LLM 的强项是 token 化后的知识、文本推理和数字空间操作；右侧 world model 的目标是连续信号、物理预测、行动规划和安全控制。二者可以互补：语言提供接口、知识和沟通；世界模型提供物理接地、动态预测和行动能力。把一边强行归约成另一边，会误判技术瓶颈。

为什么语言模型像强监督学习

访谈里有一个很有启发的观点：语言模型常被说成 self-supervised learning，但从另一种角度看，语言本身已经是人类文明加工后的强监督信号。几千年文明、书籍、网页、代码、论文和互联网，把大量世界知识压缩成 tokenized 的文本。训练 LLM 像是下载这些已加工知识，而不是直接学习物理世界。

这解释了为什么 LLM scaling law 能较早出现：它有大量已经被人类整理、标注、沟通化的材料。相反，vision 和 robotics 面对的是 raw sensory data、动作、空间、物理约束和反馈，天然缺少同等规模、同等质量、同等压缩程度的“互联网式标签”。

“免费数据”不等于“无监督数据”

互联网上的文本可以免费抓取，并不意味着它没有人类标签。语言是人类为了沟通而长期压缩出来的结构；模型吃下这些文本时，也吃下了人类已经完成的大量抽象、选择和标注。

杯子摔碎：语言描述遗漏了什么

谢赛宁举了一个简单例子：我们说“杯子掉在地上碎了”，语言只保留了沟通所需的信息。它没有描述杯子的接触、受力、破裂路径、材料性质、碎片飞散和声音。对人类沟通来说，这些细节大多没必要；对一个要在物理世界行动的系统来说，这些细节中的一部分可能非常关键。

所以，语言不是世界本身，而是为了交流而做的压缩。世界模型需要学习的，恰恰是语言压缩之外的那些规律：动力学、空间结构、接触、时序、因果和可行动性。

本章小结

LLM 的成功来自人类知识的巨大压缩和互联网规模。它会继续是智能系统的重要组成部分，但面向物理世界的智能不能只靠语言。世界模型要补的是语言天然省略掉的那部分世界。

从“下载互联网”到“下载人类/世界”

访谈中最有传播力的比喻之一，是“反向 OpenAI”。正向路径是：从互联网下载数据，训练 transformer / GPT，得到语言智能，再推向市场。这个路径之所以成立，是因为互联网已经承载了大量人类写下的知识。世界模型没有同样的 shortcut：真实世界的数据、企业场景、物理过程、机器人任务、传感器反馈，不能简单从网页下载。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{download-internet-to-world.png}
\caption{从“下载互联网”到“下载人类/世界”：世界模型需要真实环境和伙伴闭环。}
\end{figure}

读图：反向路径的关键是合作闭环

左侧是互联网到语言模型的正向路径；右侧是世界、伙伴、任务和数据共同反哺模型的反向路径。图中下方的闭环条件说明：世界模型需要伙伴数据、初始模型、真实任务、评测反馈和安全控制。没有世界参与，世界模型会停留在论文概念或生成 demo。

World model needs the world

谢赛宁说 world model needs the world。这句话是 AMI Labs 组织策略的核心。它意味着世界模型不是一个单公司靠封闭数据就能完成的任务，而需要来自农场、医院、工厂、机器人公司、传感器网络、仿真环境和真实业务场景的合作。

在这个框架里，模型先提供初始能力，进入真实场景创造价值；真实场景产生反馈、错误和新数据；这些数据再反哺模型。这个闭环类似数据引擎，但对象不再只是网页文本，而是物理世界和行动系统。

反向 OpenAI 的本质

正向 OpenAI 下载互联网；反向 OpenAI 要和世界共建数据。前者依赖已有文本语料，后者依赖真实任务、伙伴网络、评测体系和持续反馈。

为什么这不是单纯买数据

前面说 world model needs the world，容易让人以为解决方案只是采购更多物理数据。本节要把这个误解拆开：世界模型真正需要的是数据生成机制，而不是一次性数据库存。

如果世界模型需要的是 action 后果、物理状态、失败恢复、传感器流和领域过程，那么“买一批数据”远远不够。数据要有任务、目标、反馈、评测和持续更新。更重要的是，很多数据只有在模型进入场景后才会出现：模型犯错、人工纠正、系统恢复、用户改变流程，这些都不是静态语料库能提前准备好的。

从 data factory 到 environment factory

本期与 EP134 的数据综述可以连起来看：世界模型需要的不是单次采购的数据，而是能不断产生任务、失败、反馈和评测的环境。未来的数据工厂更像 environment factory。

本章小结

“下载互联网”解决了语言智能的第一阶段；“下载人类/世界”意味着从静态文本转向动态环境。世界模型的竞争，不只是模型参数竞争，也是合作网络、评测体系和真实反馈闭环的竞争。

Research Taste 与《金刚经》：怎样判断问题值得做

访谈中间长段讨论 research taste，并提到《金刚经》里的“如梦幻泡影”。这部分不是玄学插曲，而是研究方法论。谢赛宁关心的是：在高度不确定、评价噪声巨大、短期结果经常误导的研究环境里，怎样保持对问题本身的判断。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{research-taste-map.png}
\caption{Research taste 的构成：问题选择、审美、证据和时机。}
\end{figure}

读图：research taste 不是灵感，而是长期判断系统

图中四个角分别是问题选择、审美、证据和时机。一个研究者要判断什么问题值得做，不能只看当前热度，也不能只看能否快速发论文；还要看这个问题十年后是否仍有意义、证据是否能支持方向、组织资源是否足够、自己是否能忍受长期不确定性。

审美：反对廉价引用和口号

上一段把 research taste 拆成问题、证据、审美和时机；这里先展开“审美”。它不是文风偏好，而是研究者对概念滥用、口号包装和证据偷换的敏感度。

结尾处谢赛宁吐槽把维特根斯坦“语言的边界就是世界的边界”直接拿来给 LLM 背书，也吐槽把费曼的 “What I cannot create, I do not understand” 粗暴拿来给 unified model 背书。他不是反对哲学或名言，而是反对脱离上下文的装饰性引用。

这背后是 research taste 的审美标准：一个论点不能靠名人名言支撑，而要靠定义、假设、机制和证据。哲学可以启发研究，但不能替代 technical argument。

名人名言不是技术论证

把一句哲学或物理学名言贴在论文开头，不能自动证明模型路线正确。高质量研究需要说明：概念在原语境中是什么意思，迁移到 AI 后假设是否仍成立，哪些机制和证据支持这个迁移。

长期主义：从拒稿到时间检验

访谈中还讲到一篇论文曾因细节被拒，后来在另一个会议发表并获得 test-of-time award。这个故事说明，研究价值和评审结果并不总是同步。短期评审可能过度关注格式、细节或当时的主流偏好；长期影响更取决于问题是否真实、方法是否可复用、思想是否进入后续工作。

研究评价的时间尺度

短期评价看 accept / reject，长期评价看这个想法是否改变问题定义、方法工具或社区语言。真正的 research taste 是在短期噪声中坚持长期可复用的方向。

本章小结

Research taste 是本期技术线和个人线的粘合剂。它解释了为什么谢赛宁会选择 vision、选择 FAIR、离开确定路径、创业做 world model，也解释了他为什么反感被口号和热词牵着走。

AMI Labs：组织形式也是技术路线的一部分

当访谈进入 AMI Labs，问题从“世界模型是什么”变成“什么组织能做世界模型”。谢赛宁认为，在学校里资源不足，在大厂里产品周期和榜单军备竞赛会压缩探索空间；传统研究院有自由但难以承担大规模训练和真实场景合作；完全封闭的大模型公司又可能切断学术连接和开放讨论。因此，AMI Labs 试图找到一种中间形态。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{ami-labs-thesis.png}
\caption{AMI Labs 的组织命题：在世界模型主线、研究友好组织、全球伙伴网络、商业闭环和学术连接之间找平衡。}
\end{figure}

读图：组织设计如何影响技术可能性

图中五个节点共同构成 AMI 的命题。世界模型需要长期 research；长期 research 需要资源和组织氧气；真实世界数据需要全球伙伴网络；严肃创业需要商业闭环；研究路线又需要和学术界保持连接。任何一个节点缺失，world model 都可能退化成论文项目、封闭产品或空泛愿景。

不是纯研究院，也不是封闭产品公司

前面的图已经给出 AMI 的五个节点；本节先看最核心的组织张力。世界模型需要研究自由，但创业公司又必须处理资源、客户、资本和交付压力。

谢赛宁说 AMI 既不是 non-profit，也不是纯粹 research lab；它需要 business model。但它也不想成为只围绕产品 deadline 和 benchmark 打转的封闭公司。这个张力很难，因为商业公司必须对资源和结果负责，而世界模型又是高度探索性的方向。

这也是为什么他强调“researcher friendly organization”。如果组织没有足够氧气，研究者即使知道某个问题重要，也会被安排去做短期产品链条里可交付的环节，比如 video captioning、榜单优化或发布周期支持。

组织形式会改变研究空间

同一个研究者、同一个 idea，在学校、大厂、封闭创业公司和研究友好创业公司里，能做的事情完全不同。世界模型这样的大问题，既需要资源，又需要探索自由，还需要真实场景合作。

Yann LeCun 的作用：路线、人格与信任

组织张力讲完后，接下来要看谁来承载这种张力。访谈里 Yann LeCun 不只是共同创始人的名字，而是路线信念、科学家 integrity 和团队心理稳定器的结合。

访谈中，谢赛宁多次谈到 Yann LeCun。他强调 LeCun 并不反对 LLM，而是反对“LLM 自然通向人类级智能”的叙事。他敬佩 LeCun 的地方，一是长期坚持 world model / JEPA / autonomous intelligence 的路线，二是科学家的 integrity，三是个人气质：热爱生活、有广阔世界、能让身边的人感到前方有路。

这段内容对技术组织有启发：founder 或科学领袖不仅提供方向，还提供组织心理。研究问题越不确定，团队越需要有人提供长期信念、及时校正和允许质疑的讨论空间。

本章小结

AMI Labs 的故事说明，技术路线和组织路线不可分。世界模型不是只靠一个模型结构推进的，它需要资源、伙伴、研究文化、商业闭环和长期叙事共同支撑。

“Silicon Valley is LLM-pilled”：叙事、榜单与资源配置

讲完 AMI 的组织选择之后，就能理解为什么访谈会把矛头指向“硅谷叙事”。这里的批评对象不是某个地理地点，而是一个会把问题、榜单和资源绑定在一起的产业系统。

访谈标题里的“硅谷被催眠了”，指的是整个 AI 行业被 LLM 叙事高度组织起来。谢赛宁并不是说 LLM 没价值，而是说一个叙事会定义 benchmark，benchmark 会定义 resource allocation，resource allocation 又会决定研究者能做什么。最后，很多有能力的人不是不想做世界模型、视频理解或物理智能，而是被组织目标分配到更贴近当前价值链的位置。

价值链如何压缩研究空间

访谈中的链条可以概括为：

环节	表现	后果
叙事	AGI、scaling law、LLM frontier	定义什么问题“看起来重要”。
榜单	Chatbot Arena、数学、代码、通用能力排行	指挥团队优化可见指标。
资源配置	算力、人力、发布节奏向榜单和产品集中	探索性研究缺氧。
岗位分配	视频理解等问题被拆到 captioning 或产品支持环节	真正的 world-model-first 路线难以展开。

被叙事催眠的风险

当一个叙事过强时，研究者会把“对榜单有用”误认为“对智能本质有用”。这不是某个公司的问题，而是整个产业价值链对研究问题的筛选效应。

为什么逃出硅谷不是地理问题

“逃出硅谷”不是简单的地理搬家。硅谷仍然有最密集的人才、资本和工程文化，AMI 未来也可能在硅谷设点。真正要逃出的，是单一 LLM 叙事、产品发布周期和榜单军备竞赛对问题定义的控制。

巴黎、纽约、蒙特利尔、新加坡的多地办公室在访谈里不只是行政安排，也对应“world model needs the world”的组织想象：不同地区、不同产业、不同学术网络、不同数据源共同参与。

本章小结

LLM-pilled 的核心问题不是 LLM 太强，而是叙事太单一。世界模型路线需要从现有价值链旁边开出空间，让视频、物理、机器人、工业过程和真实反馈重新成为 AI 研究的一等对象。

机器人、VLA 与预训练下半场

访谈后半段多次回到 robotics。谢赛宁的判断是：在谈 AGI 或 super intelligence 之前，先问能否做出足够可靠、能在家庭环境里承担家务的机器人。很多几岁或十几岁的孩子能做的事，今天的机器人还做不好。这不是四肢硬件单点问题，而是机器人大脑问题。

VLA 与世界模型的分工

VLA 即 Vision-Language-Action，目标是把视觉、语言指令和动作连接起来。它是机器人路线的重要形态，但谢赛宁认为，仅靠把 language model 当 foundation，然后加 action head，不足以解决 world model pre-training 的问题。VLA 可以在具体任务上很强，却未必承担“预训练下半场”的基础层工作。

术语消化：机器人路线中的几个关键词

术语	解决的问题	本期中的含义
VLA	视觉、语言和动作的端到端连接	机器人执行任务的重要路线，但不等同于完整世界模型。
Robot Brain	机器人的大脑或上游智能层	需要感知、记忆、预测、规划和控制。
Hardware Scaling Law	通过更多机器人部署获得更多真实数据和硬件经验	本体公司必须面对，但不直接解决大脑预训练。
Imitation Learning	从示范轨迹学习动作策略	短期可用，但依赖数据和任务分布。
World Model Pre-training	面向连续多模态信号的基础预训练	谢赛宁称为预训练的下半场。

预训练下半场输入什么、输出什么

主持人追问 world model pre-training 输入什么、输出什么。谢赛宁的回答是：至少长期看，输入应是连续空间、高维、有噪声的多模态信号，开始可以是 video，也可能包括除视觉外的其他 encoder。输出是什么仍是 research question。这个“不知道”很重要：它说明问题还没被过早收敛成固定 recipe。

预训练下半场的开放性

语言模型预训练有清晰形式：next-token prediction。世界模型预训练还没有同样稳定的范式。可能的输入是视频、传感器和多模态流；可能的目标是预测、表征、惊讶、行动后果或可规划状态。这里仍是基础研究问题。

本章小结

机器人是世界模型最自然的出口之一，但机器人公司的短期资源常被硬件部署和具体任务牵引。世界模型路线要补的是上游大脑：能理解物理世界、保留记忆、预测后果，并为 VLA 和机器人控制提供底座。

智能不是一条语言分数线

访谈结尾，谢赛宁讨论 AGI 是伪命题、动物智能和人类自大。他引用动物认知相关书籍，谈到不同生物有不同感知和行动方式：黑猩猩的推理、鸟类缓存食物、鲸鱼交流、狗的嗅觉、蝙蝠的听觉。这里的技术含义是：智能不是在一条语言考试分数线上排序，而是和身体、环境、目标、感知通道和生存任务绑定。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{intelligence-spectrum.png}
\caption{智能不是一条语言分数线：从文本/代码到视觉、行动、身体环境和社会目标。}
\end{figure}

读图：为什么反人类中心视角重要

图中把智能拆成文本/代码、视觉/空间、行动/控制、身体/环境和社会/目标几个维度。LLM 在文本和代码上表现强，不代表它自动拥有身体、环境和行动层面的能力。世界模型的意义，正是把智能重新放回感知、预测、行动和反馈之中。

松鼠智能与孩子家务

访谈中引用 Rich Sutton 的一个视角：与其惊叹模型会写代码或拿数学竞赛奖牌，不如思考造出一只能够在真实世界生存的松鼠有多难。这个说法看似夸张，但它把问题从“人类考试能力”拉回“生命体在世界中行动”的基础能力。

谢赛宁进一步说，几岁孩子或十二岁孩子可以完成很多家务，而今天的机器人还无法可靠承担。这不是贬低 LLM，而是在提醒：真实世界里的感知、动作、恢复、目标和常识，仍是未解决的大问题。

AGI 口号容易遮蔽具体能力

如果不定义环境、身体、目标和评测，AGI 很容易变成空泛标签。更可操作的问题是：系统能否在某个真实环境中可靠感知、预测、行动、犯错后恢复，并逐渐迁移到新任务？

本章小结

智能不是单一尺度。语言能力很重要，但真实世界智能还包括视觉、身体、行动、反馈和社会目标。世界模型路线试图补的，正是这些被语言分数遮蔽的维度。

“42”：哲学引用、命运与世界模型的边界

结尾的“42”来自《银河系漫游指南》的梗：生命、宇宙以及一切问题的答案可能是 42。访谈最后，主持人问“这个世界是一个巨大世界模型吗”“你能预测命运吗”。谢赛宁回答，世界当然可以被看作一个巨大的世界模型，但我们不能预测命运，因为资源不够；也许要用地球或整个宇宙作为计算机，才能得到答案。

这段不是玩笑收尾，而是回到世界模型的边界：world model 是为了在有限资源下做足够好的预测，而不是全知全能地复制宇宙。模型越接近真实世界，越要面对计算资源、表征压缩、目标选择和不可知性的限制。

放开维特根斯坦

前面用“42”提醒世界模型不能假装全知；这里则回到语言和世界的关系。这个小节重要，是因为很多 LLM 叙事正是通过哲学名句把语言能力包装成世界理解。

谢赛宁对维特根斯坦引用的吐槽，实际上是在为世界模型划边界。早期维特根斯坦的语言-世界命题有特定哲学语境，后期又转向语言游戏。把“语言的边界就是世界的边界”直接拿来证明 LLM 能覆盖世界，是语境错配。

如果按后期“语言游戏”的思路，语言的意义来自实践和生活形式，那么这反而更接近世界模型观点：语言不是悬浮的 token，而是在真实世界行动、使用和反馈中获得意义。

语言与世界的关系

语言可以压缩世界、沟通世界、组织经验，但不能替代世界。世界模型要学习的，是语言与实践发生关系的那部分结构：行动、反馈、约束、因果和可预测性。

The normal one 与团队电池

最后回到 the normal one。谢赛宁借 Jürgen Klopp 的说法，把自己想象成团队里的电池：用热情和能量给别人发电。这不是鸡汤，而是 research organization 的一个核心功能。长期探索会有大量沮丧、失败和不确定，团队需要有人维持方向、信任和节奏。

他也承认研究底色常常悲凉：真正开心的时刻可能只有东西做出来的 5% 到 10%。这句话很真实，也解释了为什么世界模型这种方向需要组织文化支撑。没有长期心理韧性，宏大愿景会很快被短期挫败压垮。

本章小结

结尾把技术问题和人生问题压在一起：世界可以被建模，但模型永远受资源和目标限制；语言能启发思考，但不能替代实践；普通人也可以通过长期选择、团队能量和研究品味，进入大问题。

术语消化：本期关键词索引

术语	一句话解释	在本期中的作用
World Model	根据状态和动作预测未来状态的模型	访谈的中心技术命题。
Predictive Brain	面向物理世界的预测性大脑	AMI Labs 想构建的上游智能层。
State	对环境的任务相关压缩表示	连接表征学习与 planning。
Action	智能体对环境施加的动作或干预	让预测进入控制和决策。
Representation Learning	学习可复用的抽象表征	从 vision 通往 world model 的桥。
Vision as Perspective	把视觉理解成智能的基础视角，而非任务集合	解释 CV 在 LLM 时代的意义。
LLM-pilled	被 LLM 叙事过度组织资源和想象	对硅谷价值链的批评。
VLA	Vision-Language-Action 模型	机器人路线的重要但不充分形态。
World Model Pre-training	面向视频/传感器/物理世界的基础预训练	预训练下半场的核心开放问题。
Research Taste	判断问题、证据、时机和审美的能力	解释个人和组织选择。
JEPA	Joint Embedding Predictive Architecture	LeCun 路线中“在抽象表征空间预测”的代表思想。
反向 OpenAI	从世界和伙伴网络共建模型，而非只下载互联网	AMI 的组织和商业隐喻。

本章小结

这些关键词都指向同一个问题：下一阶段 AI 是否能从“会处理人类写下来的世界”走向“能在真实世界中预测、行动和学习”。这需要模型、数据、组织和哲学边界同时更新。

总结与延伸

核心结论

谢赛宁的个人路线不是成功学，而是研究问题如何通过选择、组织和偶然逐渐成形。
Vision 不应被理解成一组旧任务，而应被理解成处理连续、高维、有噪声真实世界信号的 perspective。
世界模型的最小定义是 \(s_{t+1}=f(s_t,a_t)\)，但真正困难的是 state 表征、物理接地、planning 和反馈闭环。
LLM 是智能系统的重要组成部分，但它主要吃下人类已经 tokenized 的知识，不能自动替代物理世界建模。
“反向 OpenAI”意味着世界模型不能只下载互联网，而要和真实世界伙伴共建数据、评测和应用闭环。
AMI Labs 的关键不是“又一家大模型公司”，而是尝试在研究自由、资源规模、商业闭环和学术连接之间找新组织形态。
LLM-pilled 的问题是单一叙事会定义榜单和资源配置，从而压缩世界模型、视频理解、物理智能等方向的探索空间。
智能不是一条语言分数线；真实世界智能要回到身体、环境、行动、反馈和目标。

开放问题

总结之后还需要保留问题意识，因为本期最诚实的地方之一，就是承认世界模型的许多关键答案还没有收敛。下面这些问题，也是后续阅读和继续生成笔记时应该持续追踪的线索。

世界模型预训练是否会形成类似 next-token prediction 的稳定范式？
世界模型的 state 应该是显式 3D、latent representation、混合结构，还是按任务动态形成？
VLA 与 world model 的边界会逐渐融合，还是形成上游基础层与下游行动层的分工？
AMI 式的全球伙伴网络能否真正带来不可替代的数据闭环？
当 LLM 榜单逐渐饱和后，产业会不会把资源重新投向 physical intelligence？

拓展阅读

Yann LeCun, A Path Towards Autonomous Machine Intelligence：理解 JEPA、世界模型和 autonomous intelligence 的长期路线。
Richard Sutton, Dyna / model-based reinforcement learning 相关论文：理解世界模型、planning 和 RL 的历史关系。
Model Predictive Control 入门材料：理解“用模型 roll out 未来并选择动作”的控制直觉。
视觉表征学习、视频生成、3D representation、VLA 和机器人预训练相关论文：理解世界模型可能的多条入口。
Frans de Waal, Are We Smart Enough to Know How Smart Animals Are?：理解反人类中心的智能观。

最后的判断

本期最值得带走的不是“LLM 错了、世界模型对了”这种二分，而是一个更精确的判断：LLM 解决了人类已写下世界的一大部分；世界模型要解决的是人类没有写下、也很难写下的世界。下一阶段智能的关键，可能就在这两者之间的桥上。