访谈笔记:谢赛宁——世界模型、逃出硅谷与 AMI Labs
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | 张小珺商业访谈录 |
| 日期 | 2025-08-08 |

导言
这场访谈的特别之处,在于它几乎把一个顶尖研究者近十多年的问题演化完整摊开了看。从交大 ACM 班、本科实习、博士训练,到 FAIR、自监督、DiT、Cambrian、JEPA 与 AMI Labs,谢赛宁并不是在讲一串彼此孤立的成就,而是在不断回答同一个问题:如果我们真想理解智能,应该把注意力放在哪些变量上?因此,这份笔记不按时间顺序复述,而是按十个主题重新组织,希望把访谈中那些跨越不同年份、却在逻辑上彼此呼应的判断压缩成更清晰的结构。
如果只把这场访谈当成“明星科学家访谈”,会错过它最珍贵的部分。它真正罕见的地方,是谢赛宁愿意把很多本可被包装得更漂亮的经历,重新还原成充满偶然、失败、误判、迟到与反复修正的过程。他讲导师、论文、创业、世界模型时,始终在反复拆解一个误区:外界看到的是结果的光滑表面,而研究者真正需要面对的是形成结果之前那团极不规则的混沌。这也是为什么他一直强调非线性、探索、负面结果与反脆弱,因为这些概念恰好构成了从混沌里长出新结构的必要条件。
访谈的第二层价值,在于它让“视觉研究”重新获得了思想上的重量。在大模型语境里,很多人会不自觉地把 vision 理解为语言模型的外围组件,或者把 world model 理解为一轮新的叙事包装。但谢赛宁给出的论证非常明确:视觉之所以重要,不是因为它能给 LLM 再加一个模态,而是因为它连接着真实世界、连续空间、时间流和行动后果。换句话说,若把智能只理解成在 token 空间里生成下一个符号,那么整个 AI 领域就很容易把“会说”误当成“会理解”。
阅读这份笔记的三条主线
第一条主线是“人成为研究者的过程”,包括家庭、学校、导师和同辈影响如何共同塑形。第二条主线是“视觉通向世界模型的理论连续性”,它解释了为什么谢赛宁从未把自己的工作看作离散跳跃。第三条主线是“研究与组织如何相互支撑”,从 FAIR 到 AMI Labs,真正变化的不是问题本身,而是承载问题的制度环境。
最后,这份笔记有意保留访谈中的文化与人生部分。电影、哲学、纽约、动物智能、维特根斯坦、克洛普、书单与命运感,并不是技术讨论的装饰物,而是谢赛宁理解智能时不可分割的背景。若没有这些背景,他对 research taste、对语言边界的警惕、对真实世界的坚持,就会被误读成几句漂亮口号。正因为他始终把技术放回更大的生活世界中衡量,这场访谈才不只是在谈 AI,也是在谈怎样在一个高速竞争、叙事过热的时代,尽量保持清醒。
成长与求学:从互联网少年到 ACM 班
谢赛宁在这次长访谈里反复淡化一种常见叙事:人们总喜欢把后来做出成绩的人回溯性地写成“从小就是天才”的线性故事,但他给出的自我描述恰恰相反。他说自己不是一路都在“最尖的那一班”里直线上升的人,更像是带着广泛兴趣、在不同时点被不同环境推了一把的普通学生。这个起点很重要,因为它决定了他后来对于研究、职业和命运的基本判断:真正有价值的成长,常常不是靠单一目标把人压成一条线,而是让很多看似不相关的经历在长时间后重新汇合。
他的家庭结构本身就充满一种并不“标准化”的气质。母亲在他四五岁时带着他四处旅行,给他的不是竞赛式的目标导向,而是一种对外部世界的开放感;父亲则是他口中的“纯粹宅男”,最爱待在书房看书。这个细节在访谈中被轻轻带过,但其实很能解释谢赛宁后来那种既能沉入技术细部、又始终保留广阔文化兴趣的风格。家里没有人学纯理工,父亲学心理学、后来从事传媒工作,这意味着他并不是从一个“理工世家”被规划出来的,而是在书房、影像、旅行和早期互联网的共同作用下逐渐形成了自己的问题意识。
九岁拥有第一台电脑,是另一个决定性节点。谢赛宁并没有把电脑叙述成单纯的“编程启蒙机”,而是把它放回当年中国互联网爆炸式增长的时代背景中来理解。新浪博客、QQ 空间、饭否,以及无数快速涌现又消失的线上社区,让一个少年第一次感受到知识、表达、社交和兴趣可以被同一个媒介连通。他的原话是 “互联网的爆炸式增长让我变成了一个对很多事情都很感兴趣的人”。这句话值得停下来读两遍,因为它说明他的核心资产并不是过早专业化,而是过早接触了一个高度异质的信息世界,从而建立起持久的好奇心机制。
书房、电脑与早期互联网
谢赛宁童年的三个关键词是“书房”“电脑”“互联网”。书房提供的是静态沉潜,电脑带来的是可操作性,互联网则打开了一个高速流动的公共世界。三者叠加,塑造出一种很少被单一学科边界束缚的学习方式:他既能迷上技术,也会关心心理、传媒、写作和更大的文化环境。
进入上海交大 ACM 班,同样不是“按最优路线前进”的结果。他明确说自己不是所谓“A class 一路上来”的学生,更像是“E class 的 trajectory”。这句话带着一点自嘲,但也在提醒听众:精英教育体系内部也存在复杂的层次和偶然性。他通过数学与心理学竞赛奖保送交大,而不是继续把高考当成唯一通道;他对交大的判断也很朴素,“交大挺好,我跟这个城市、这个学校都气质相投”。这里没有神话式的选择逻辑,反而是一种很上海、很交大式的实际感:找到与自己节奏契合的环境,比进入一个被外界默认“更强”的目的地更重要。
访谈里一个颇具戏剧性的细节是 ACM 班面试。沈少教授问他喜欢读什么书,他回答《What is Mathematics》。几年之后,他人已经在纽约,而 NYU 所在的数学地标恰恰就是 Courant Institute。访谈并没有把这件事神化成命运安排,但这种“后来才看见前史回声”的体验,确实构成了他叙述人生的重要方式:不是每一步都在当下看见意义,而是很多线索会在多年后彼此照亮。对年轻研究者来说,这个细节也有现实含义。读一本看似“无用”的书,不一定立即转化成分数或项目,却可能在更长时间尺度上塑造你判断什么问题值得追。
ACM 班不是终点,而是方向感的校准
交大 ACM 班在谢赛宁口中最重要的价值,不是“把人训练得更卷”,而是让他更早遇到真正影响自己的人和书。面试时提到的《What is Mathematics》,后来与 Courant Institute 形成呼应,也象征着他真正追求的不是短期排名,而是与数学、计算和思考方式建立长期关系。
如果说交大的制度环境给了他空间,那么学长侯小迪则像一个更具体的人格样本。侯小迪本科就发 CVPR,以极少的代码解决重要问题,在校园中已经近乎传奇;更重要的是,他主笔的《交大学生生存手册》直接影响了谢赛宁看待“评价体系”的方式。那句极锋利的话,“如果一个人把政策评分作为自己的至高追求,那么他就是这个政策的牺牲品”,后来几乎贯穿了谢赛宁全部职业选择:不把学校排名、论文命中率、公司光环、甚至一时的市场风向,当成终极评价标准。也是在侯小迪与 BCMI 实验室的书架上,他逐渐确认自己想做 Computer Vision。
这种影响并不只是“学长带路”那么简单。它更像是一种审美教育。侯小迪展示的是:一个人可以既深刻又不迎合,可以既在制度内取得好结果,又不把制度本身当信仰。谢赛宁后来强调 curiosity、research taste 和对真实问题的执念,都能在这里找到前传。哪怕在本科阶段,他也已经显示出这种主动性。大三时他没有按默认路径去微软亚洲研究院,而是自己联系到 NUS 颜水城实验室,做出第一篇 BMVC 论文。那句 “每个人都是这个世界上一个变量,有可能你就是最重要的那个变量”,既是对年轻人的鼓励,也透露出他对个人能动性的基本判断:很多门并不会自动为你打开,必须先假设自己有资格敲门。
不要把成长叙事误读成“标准优等生模板”
这段经历最容易被误读的地方,是把它包装成另一种更隐蔽的成功学:好像只要读对了书、遇到厉害学长、进了 ACM 班,就能自然通向顶尖研究。访谈给出的真正信息恰恰相反。谢赛宁反复强调的,是选择的偶然性、环境的适配性和主动争取机会的能力,而不是一条可复制的流水线。
从家庭、互联网到交大与 BCMI,这一章真正建立起来的是谢赛宁的“起点方法论”。他不是从某个狭窄标签出发,而是从广泛兴趣出发;不是先相信评价系统,再决定自己要成为什么样的人,而是先确认自己想追什么问题,再倒过来选择学校、导师与路径。这也是为什么他的后续故事虽然越来越“硬核”,却始终保留着一种不那么学院、不那么标准化的底色。
本章小结
谢赛宁的成长线索说明,研究者的早期资本未必是线性竞赛成绩,更可能是书房式的沉浸、互联网式的开放,以及在关键节点上遇到能改变问题意识的人。交大 ACM 班和侯小迪的影响,真正重要之处在于把“追求高分”替换成“追求真实兴趣与长期判断”。这也为他后来在研究和职业上的多次逆向选择奠定了基调。
视觉的信仰:为什么选择 Computer Vision
谢赛宁讲自己为什么选择视觉时,并没有从“这个方向更热门”或“更容易发论文”说起,而是从一个很孩子气、但极其根本的思想实验说起:如果必须去掉一个感官,哪个感官最不能失去?在他看来,视觉几乎无法替代。这种判断并不是简单的感官偏好,而是一种关于智能结构的直觉。一个系统如果无法从连续、模糊、带噪声的空间信号中提炼出可行动的世界表征,那么它距离真正的 intelligence 就还很远。也正因为如此,视觉并不是 AI 中的一个边缘应用,而更像理解智能的主入口之一。
他随后给出的论据带有典型的“从生物演化回看机器学习”的视角。视觉相关区域占大脑皮层的大约 \(30\%\),如果把更广泛的激活范围算进去,甚至能到 \(70\%\)。这当然不是说“视觉就是全部”,而是说明视觉在人类智能架构里承担着超出单一感官的地位。谢赛宁引用寒武纪大爆发理论来解释这一点:当视觉出现之后,生物之间的竞争突然升级,因为“被看见”和“看见别人”同时发生了。这既提高了捕食与逃生的精度,也迫使整个进化系统转向更高阶的表征、预测和决策。
“眼睛是暴露在真实世界的大脑”
访谈里最核心的一句判断是:“眼睛是唯一一个暴露在真实世界里面的大脑部分...解决视觉不是要解决视觉本身,而是要解决智能本身”。这句话把视觉从一个“任务集合”提升成了一个“智能接口”。如果眼睛本质上是大脑伸向世界的前端,那么视觉研究的终点就不只是分类、检测或分割,而是学习如何把世界压缩成可用于理解、预测和行动的内部表征。
因此,谢赛宁对 Computer Vision 的定义天然带有反潮流的色彩。他不愿把 vision 视为某个 benchmark 的集合,也不愿把它仅仅理解成图像任务、自动驾驶或多模态系统的某个组件。在他看来,Computer Vision 更接近一种 perspective,一种处理真实世界信息的方式。这个 perspective 至少包含两层含义:第一,视觉面对的是连续空间、高维度且高度带噪声的输入,不能像语言那样天然享受离散 token 化带来的结构红利;第二,视觉必须依赖层次化表征,从局部纹理、边界、形状一路上升到物体、场景、关系与动态因果。也正因为这两层特征,视觉从来都不只是“看图说话”,而是智能系统如何与物理现实接壤的集中体现。
从寒武纪到深度视觉
谢赛宁之所以反复讲寒武纪大爆发,不是为了做生物学类比,而是为了说明一件事:视觉一旦出现,整个智能系统的复杂度就会被重新定义。对于机器学习来说,视觉问题之所以难,不是因为像素多,而是因为像素背后对应的是三维空间、对象恒常性、遮挡、运动、因果和行动后果。这些结构远比 token 预测要厚重。
这种“视觉是北极星”的看法,也解释了他为什么在大模型浪潮里并不沮丧。很多做视觉的人会担心,LLM 的进展会不会让视觉沦为语言模型的附庸;但在谢赛宁那里,答案几乎是相反的。正因为语言模型证明了表征学习与规模化训练的威力,视觉研究者才更有机会重新争论“真正的瓶颈是什么”。语言的强势,并不意味着世界被语言穷尽了;恰恰相反,它暴露出一个更大的缺口:大量真实世界知识并不能被自然语言完整编码,更不能靠语言在数字空间中的自回归过程自动补上。
他对语言与视觉关系的态度因此非常平衡。语言很重要,因为它给问题定义、抽象和人机对齐提供了强大工具;但如果让语言成为唯一接口,就容易把系统困在一个“说得明白但摸不到世界”的层面。视觉在这里不是为了给语言打工,而是为了重新打开与真实世界的连接。后来他把 LLM 称为“virtual intelligence”,也正是基于这层区分:语言模型能在数字世界里完成很多惊人的操作,但要面对空间、身体、行动和物理约束,它还需要一种更深的世界表征作为底座。
把 Vision 缩减成 benchmark,会错过它真正的野心
如果把 Computer Vision 理解成“目标检测、图像分类、视频理解”的若干竞赛赛道,就会自然得出一个错误结论:这些任务迟早会被更大的 foundation model 吸收,所以视觉会失去独立价值。谢赛宁的观点恰恰是,视觉之所以重要,不在于这些任务本身,而在于它们共同指向同一个核心难题:怎样从复杂、连续、具身的世界里学习出稳定而可泛化的表征。
值得注意的是,谢赛宁对视觉的执着,并不来自学科忠诚,而更像是一种“认知假设”:如果一个系统无法处理大规模连续信号、无法在多层表征之间形成稳定映射、无法把感知结果用于后续预测与规划,那么它就很难被称为真正意义上的智能。换言之,视觉吸引他的不是图像本身,而是图像背后那整套关于空间、遮挡、时间和行动可供性的复杂性。也因此,做视觉在他那里从来不是进入一个较窄的子领域,而是主动选择去做最难被离散化、也最接近现实世界的一类问题。
从这个角度回头看,他后来对长镜头、世界模型和 wearable/robotics 的兴趣,其实早已被写在这一最初选择里。一个少年凭直觉觉得“最不能失去视觉”,后来成为一个研究者继续追问“为什么视觉在智能里如此中心”,中间看似跨越多年,内核却始终没有改变。这种稳定的问题意识,恰恰比具体技术名词更值得记录。
从这个意义上说,谢赛宁选择视觉,并不是“选择一个方向”,而是“选择一种关于智能的信仰”。这种信仰让他后来无论做自监督、生成模型、多模态,还是世界模型,始终没有真的离开过 Computer Vision。因为在他的语境里,vision 从来不是一个即将被替代的子领域,而是智能研究不可绕开的主战场。
本章小结
谢赛宁之所以坚定地选择 Computer Vision,是因为他把视觉视为智能与真实世界之间的核心接口,而不是若干视觉任务的总和。寒武纪视角、脑科学比例、层次化表征和“眼睛是暴露在真实世界的大脑”这几个判断,共同构成了他后续所有研究路线的理论底座。
博士之路:涂周文、UCSD 与五次实习
谢赛宁的博士申请并不顺利,甚至一度接近他口中的“失学”。这段经历的重要性在于,它让他很早就学会区分“机构名气”和“具体跟谁做事”这两件本不等价的事情。直到四月,他才收到涂周文教授的回复,半夜三点在宿舍楼下接电话的场景,是他人生里极具戏剧性的时刻。拿到的是 UCLA offer,但入学前一周导师宣布跳槽去 UCSD,他几乎没有犹豫就决定跟过去。原因很简单:“重要的事情是我跟谁在做什么事情,这件事情是不是我想做的”。这句话后来可以视为他所有关键职业决策的模板。
跟随涂周文去 UCSD,并不是“屈就”,而是一种非常成熟的研究判断。对于刚起步的博士生来说,真正决定前三年研究质量的,往往不是学校 logo,而是导师是否愿意在方法、问题和具体执行上给予高密度反馈。谢赛宁形容涂老师的指导方式是手把手教学,坐在显示器旁边逐行看代码。这种训练在今天看来近乎奢侈,因为它意味着导师不仅给方向,也直接示范什么叫做严谨、什么叫做把一个 idea 压成可以运行、可以验证、可以解释的系统。涂老师自己曾独立作者完成多篇重要工作、从头写五万行 C++ 代码,这种工程与研究一体化的能力,也为谢赛宁后来那种既能谈方法论又能落到系统细节的风格提供了早期样板。
选择导师,本质上是在选择研究操作系统
谢赛宁在 UCLA 与 UCSD 之间的转向,表面看是跟着导师迁移,实质上是在为自己选择一个研究操作系统。这个系统包括:导师如何定义问题、如何看实验、如何写代码、如何面对失败、如何把抽象洞见压成可复现结果。对博士训练而言,这比学校名头更直接,也更不可替代。
他的博士早期工作正好撞上深度学习进入视觉领域的历史节点。2012 到 2013 年是 AlexNet 时刻,很多传统 CV 研究者仍然把深度学习视为某种“炼金术”,既不够优雅,也不够可解释。在这样的背景下,DSN(Deeply Supervised Nets)和 HED(Holistic Edge Detection)就不只是两篇论文,而是他与新范式共同成长的见证。DSN 是他最早的重要深度学习工作,甚至因为公式 typo 被 NeurIPS 拒掉;十年之后,它又获得 AIStats test-of-time award。谢赛宁因此讲出一句非常值得所有年轻研究者记住的话:“不要在乎一个 point estimate...所有的评价最后都会是一个积分”。评审结果是点值,长期影响才是积分;点值会被噪声左右,积分则更接近研究真正留下来的轨迹。
HED 则提供了另一种经验:在一个被许多人视为“边缘任务”的问题上,也可以做出方法论上极有代表性的工作。边缘检测听起来不像 AGI、foundation model 那样宏大,但它恰恰浓缩了视觉表征的一个基本难点:怎样在多尺度特征里保留局部精度与全局语义。HED 获得 ICCV Marr Prize 提名,谢赛宁说 “我会觉得我的人生开始了...很不幸这是我最后一次拿 best paper”。这句话一半是玩笑,一半是真话。对研究者而言,第一次真正被学界看到,会强化一种非常深的自我确认:不是因为某个奖项本身有多大,而是因为你突然知道,原来自己对问题的理解可以穿透他人的注意力。
DSN 与 HED 的历史位置
DSN 出现在深度学习刚进入视觉主流、但尚未被完全接受的时期,它的意义不只在于技术贡献,也在于证明“深网络内部可以被更细粒度地监督”。HED 则把多尺度特征、端到端训练与传统边缘检测问题有效结合起来,显示出深度方法并不只能在大而全的任务上奏效,也能在经典问题上重写上限。
博士阶段另一条非常关键的线索,是他的五次实习:NEC Lab、Adobe、Meta FAIR、Google Research,以及 DeepMind。若只按简历阅读,这串名字很容易被误解成“完美进阶”;但他在访谈里的叙述反而非常朴素。每年夏天,他开着一辆破车从南加到北加,全部身家只装在两个行李箱里。NEC 做出一篇 CVPR,Adobe 没做成东西,却学会“没做出来也不是世界末日”,FAIR 遇到何凯明成为人生转折点,Google 与 DeepMind 则让他看到工业界与学界问题边界的差异。真正有意思的不是这些机构本身,而是它们共同构成了一个训练:如何在不同研究文化之间快速切换,同时仍然保住自己的问题意识。
这条线索甚至可以回溯到本科时去 NUS 实习的决定。那次选择本身就说明,谢赛宁并不愿意接受“默认最优路径”。他自己联系颜水城实验室、说服导师同意、做出第一篇论文,这里面蕴含的是一种非常鲜明的主动性。他给出的那句 “每个人都是这个世界上一个变量,有可能你就是最重要的那个变量”,其实可以理解为他整个博士前后行动方式的注脚:当体系没有自动把机会放到你面前时,你不能先假定自己不重要。
“point estimate” 迷思
论文中稿、奖项、实习 return offer、短期排名,这些都很像 point estimate。它们当然重要,但都只是在一个充满噪声的时间点对你进行抽样。谢赛宁真正警惕的是,当研究者把这些点值误认为最终真相时,就会逐渐丧失耐心与判断力,甚至为了局部最优放弃长期轨迹。
把博士阶段放在更长的时间线上看,最值得注意的不是“他做了哪些论文”,而是他学会了怎样对待不确定性。申请季的迟来 offer、导师跳槽、论文误拒、实习失败、方向切换,这些本来都足以把一条看似漂亮的学术道路切碎。但谢赛宁从中总结出来的,并不是自我感动式的励志故事,而是一套更冷静的工作哲学:跟对人,持续做事,把短期评价还原成噪声,把长期积累看成积分,把失败当作信号而不是身份判断。
本章小结
博士之路里的关键不是“终于进入顶级学术圈”,而是通过涂周文的训练、DSN 与 HED 的起步、以及五次跨机构实习,形成了谢赛宁处理研究不确定性的基本能力。导师选择、长期视角和对 point estimate 的警惕,共同构成了他后续跃迁的基础。
何凯明与 FAIR:从 ResNeXt 到 MAE
谢赛宁把自己与何凯明的相遇描述成人生转折点,这并不夸张。两人第一次高强度合作时,何凯明刚加入 FAIR,甚至还不太会用 Linux cluster,谢赛宁要教他怎么在计算集群上工作。这个细节非常有趣,因为它把后来被视作“神级研究者”的何凯明重新拉回到一种具体的人与人关系里:伟大研究并不是由抽象天才自动生成的,而是在并肩做题、调实验、争论问题的过程中长出来的。两人一起参加 ImageNet Challenge,最终做出 ResNeXt,拿到第二名,这不仅是一篇经典论文的起点,也是谢赛宁第一次真正进入“顶级研究同频共振”的现场。
他形容何凯明有一种“现实扭曲引力场”,意即身边的人都会在这种场里被拉向更高标准。这个说法之所以精准,在于它既不是传统意义上的 charismatic leadership,也不是单纯的勤奋楷模,而是一种把普通想法重新锻造成“金子般的 idea”的能力。谢赛宁说,“凯明能把所有很普通的东西变成金子般的 idea”。这其实揭示了顶尖研究者的一种核心能力:他们未必总是在寻找完全新奇的元素,更常见的情况是,他们能在别人视为平凡的材料里,识别出真正可被放大的结构。
ResNeXt:普通构件如何被提炼成范式
ResNeXt 常被记住的是分组卷积和更优的精度效率权衡,但谢赛宁强调的重点是,它的想法本质上接近今天的 MoE:不是一味增加深度或宽度,而是在结构上引入“多个专家并行再聚合”的思路。也因此,“X”既有 next 的意味,也隐约藏着 Xie 的名字,像是一种对共同创造的纪念。
ResNeXt 对谢赛宁的真正影响,不只是论文层面的成功,而是让他看到何凯明怎样做研究:从一个并不花哨的结构变体出发,抓住最本质的自由度,然后把它打磨成既简洁又有解释力的设计。这种风格后来一路延伸到 FAIR 时期的自监督学习工作。Yann LeCun 早就把 self-supervised learning 比作蛋糕底座,认为绝大部分智能都来自对世界结构的预测与表征,而不是靠少量标签完成监督。谢赛宁与何凯明在 FAIR 里推进的 MoCo 和 MAE,正是在这条大方向上不断逼近“更简单、更 scalable、更接近本质”的尝试。
MoCo 的价值在今天已经很容易被低估,因为对比学习、自监督预训练、动量编码器这些概念后来都变得耳熟能详。但回到当时,MoCo 之所以重要,是因为它第一次真正让对比学习在视觉预训练中稳定地 work。它建立了一个可持续更新、可大规模利用负样本的机制,从而把原本较脆弱的表征学习方法推向更实用的阶段。MAE 则是另一种转向:不是继续把对比学习做得更复杂,而是回到 masked prediction 的简单形式,发现“更少的假设”反而在规模化上更有潜力。这种从 MoCo 到 MAE 的变化,本身就体现了 FAIR 内部的一种研究气质:不对既有路线产生情感依赖,愿意在新证据前重新洗牌。
MoCo 与 MAE 的连续性
MoCo 和 MAE 看上去方法差异很大,但它们共享同一个问题意识:怎样在不依赖人工标签的前提下,让视觉系统从海量数据里学习到可迁移的结构。MoCo 更像“通过判别式对齐学到表征”,MAE 则更像“通过缺失重建逼出内部语义”。两者都不是终点,却共同证明了自监督学习在视觉中不是旁支,而是主线。
不过,也正是在 FAIR 时期,谢赛宁逐渐触到一个更棘手的事实:自监督学习“有效”并不自动等于“可以像语言模型那样无限 scale”。他提到何凯明在 2018 到 2019 年就已经很早地说“要把模型做得大大大”,但随着经验积累,他们发现视觉自监督在各个 domain 都有效,却很难出现像 LLM 那样平滑、持续、令人目眩的 scaling law。这个发现很重要,因为它迫使研究者承认,视觉世界的监督结构、信息密度和噪声分布,与文本并不对称。也正因此,未来的世界模型很可能不会简单重复语言模型的增长路径。
“做大就会好”不是跨模态真理
FAIR 时代最值得记住的一个反例,是视觉自监督并没有因为模型更大、数据更多就自然复制语言领域的曲线。谢赛宁的经验提醒我们,scaling 不是一把万能钥匙,而是一种必须依赖问题结构的现象。若忽视模态差异,只会把语言模型的成功神话错误投射到所有方向。
还有一层常被忽视的连续性,是 FAIR 时期的自监督工作并没有在 DiT 或世界模型出现后“过时”,而是为后来的所有转向提前准备了方法论和直觉。MoCo、MAE 训练研究者去相信:标签不是唯一的学习信号,真正有价值的是如何构造任务,让模型被迫压缩出世界中的稳定结构。等到谢赛宁后来开始思考 predictive world model 时,这种信念自然延伸过去。换句话说,他并不是从“表征学习”突然跳到“世界模型”,而是在同一条思想河流里继续往下游走。
在何凯明身边工作的意义,还在于谢赛宁第一次系统感受到“研究风格”如何被传递。何凯明不是靠口头灌输来教方法论,而是通过一道道实验、一个个写作细节,把对问题本质的追问变成团队默认的工作标准。后来谢赛宁把 research taste、非线性探索、论文叙事都说得那么清楚,很大程度上正是因为他在 FAIR 见过一个完整运转的高水平研究机器。
本章小结
从 ResNeXt 到 MoCo、MAE,谢赛宁在 FAIR 经历的不是几篇代表作的串联,而是一次研究方法论的再塑形。何凯明让他看到,顶尖工作往往来自对普通元素的重新组合、自监督主线的不断简化,以及对 scaling 幻觉的及时修正。
何凯明的研究方法论
访谈最有价值的部分之一,是谢赛宁花大量时间拆解何凯明的研究方法。这些内容之所以重要,不是因为它们提供了某种“成功秘籍”,而是因为它们把顶尖研究从神秘天赋还原成了一套可以被观察、被训练、也可以被误解的工作方式。最核心的一句判断是:“Research 从来不是一个线性的发展,一个线性发展的 research 永远不是好的 research”。这句话几乎可以当作他理解创造性工作的总纲。真正好的研究,不会从 idea A 直线走到 paper B;它会在中途不断偏航、遇阻、被迫重写问题,最后留下的成果往往与最初设想差异很大。
这也是为什么他紧接着说,“一开始你想的 idea 不是你的 idea,探索中的 idea 才是属于你的 idea”。刚坐下来想出的点子,多半只是由近期阅读、流行趋势或既有偏见拼接出来的借来之物;只有在你真正开始做实验、遇到失败、看见奇怪信号之后,问题才会慢慢长出属于你的轮廓。谢赛宁很强调探索的价值,不是因为探索浪漫,而是因为只有探索能逼出你与问题之间的真实关系。一个人若总在纸面上追求“我已经有完整答案”,往往反而说明他还没有真正进入研究对象。
非线性不是副作用,而是研究的本体
谢赛宁并不是说研究偶尔会走弯路,而是说“弯路”本身就是研究最有信息量的部分。前几个月毫无头绪、最后一个月突然打通的经历,在他看来恰恰是正常形态。因为真正重要的发现,往往来自你在障碍前被迫改变视角,而不是来自顺着原计划平推。
在这种非线性理解之上,何凯明还形成了一套相当清晰的研究节律。谢赛宁总结为六个月周期:前一到两个月主要做开放探索,找到任何值得追踪的 signal;中间两到三个月把最有希望的方向 scale up、系统化、做对比与排错;最后一个月进入写作与打磨。这套节律之所以高效,不在于时间分配本身,而在于它默认“问题会在探索中变化”。因此前期不能把计划写得过死,后期也不能在没有信号时强行包装故事。
一个典型的六个月研究周期
| 阶段 | 工作重点 |
|---|---|
| 第 1–2 个月 | 大量探索、搭 baseline、快速试错、寻找异常点与有效 signal,不急于定义最终方法。 |
| 第 3–5 个月 | 围绕最强 signal 组织资源,做 scale up、消融实验、错误分析和必要的系统工程,把偶然现象压成稳定结果。 |
| 第 6 个月 | 提前完成论文主体写作,再反复 polish 图、表、措辞和叙事逻辑,使 paper 呈现清晰的问题推进线。 |
他特别强调一个反直觉的判断:最差的 research,往往不是失败,而是从头到尾没有任何障碍。因为如果最初的 idea 与最终的结果完全一致,意味着你可能根本没有逼近真正的未知,只是在执行一个过于保守、过于低信息量的计划。与之相对,负面结果反而可能是很好的信号。谢赛宁举例说,某个方向如果“掉了十个点”,那至少说明系统对这个因素高度敏感,反方向也许会有巨大增益;真正可怕的是性能停在原地,不好也不坏,说明你还没有碰到系统的关键自由度。
最差的 research:没有障碍
访谈里最震撼的一点,是他把“没有障碍”定义成坏研究的标志。因为没有障碍往往意味着没有真正进入问题核心,没有碰到结构性的张力,也没有逼出新的解释。相反,困惑、反常结果和失败实验,常常比平滑推进更接近重要发现。
这种方法论并不只有“哲学味”,它还体现在极强的实验纪律上。何凯明要求跑每个实验之前,研究者先写下自己对结果的预测。这个动作表面看只是防止事后诸葛亮,实则是训练研究者建立因果模型:你为什么认为这个改动会涨、会跌、还是会不动?如果结果与预测不符,究竟是直觉错了,还是系统中有尚未识别的变量?谢赛宁还提到用 Excel 表格追踪实验,这种看似普通的管理方式,本质上是在对抗研究过程中最常见的认知漂移。人脑很容易只记住支持自己叙事的结果,而忽略整个搜索过程的真实分布。
更深一层的,是所谓 research taste。何凯明送他《金刚经》作为入职礼物,其中那句 “凡所有像皆是虚妄,若见诸像非相,即见如来”,被谢赛宁直接拿来解释研究审美。所谓 taste,不是追逐最响亮的术语,而是能够穿透“像”去看“相”,追问一篇论文、一个效果、一个流行方向背后到底什么才是本质变量。这也是为什么他后来总能把看似复杂的工作压缩成几句锋利判断,例如 ResNeXt 本质像 MoE,或者 soft attention 也许不是 ViT 最重要的部分。味道来自识别本质,而不是堆积术语。
Paper 像电影,研究像叙事发现
谢赛宁借何凯明与自己对电影写作的兴趣,提出一个非常形象的比喻:最差的电影是流水账,最差的 paper 也是。好的论文重点不只在 technique,而在于“你到底怎么到达这儿的”。问题、冲突、转折、证据和最后的解答,构成了一篇 paper 的叙事弧线。这里的 storytelling 不是包装,而是把真实的发现结构整理成读者可理解的形式。
这也解释了何凯明为何能在 deadline 前一个月就把论文写完,随后再逐字逐标点打磨,甚至 OCD 到每行文字不能少于 60%。极致 polish 并不是形式主义,而是对研究叙事负责。一个模糊、臃肿或自我重复的 paper,往往暴露的是作者自己并没有想清楚问题的真正骨架。谢赛宁把电影理论家麦基的《Story》和研究写作并置,正说明他相信:无论是科学还是艺术,真正打动人的都不是材料堆积,而是结构上是否有力量。
本章小结
何凯明的方法论可以概括为四层:承认 research 的非线性本质,以探索而非空想生成真正的 idea,用实验纪律逼近因果解释,再用叙事能力把发现结构表达出来。对谢赛宁而言,这套方法不是抽象原则,而是其后所有代表作背后的工作语法。
DiT、ConvNeXt 与反脆弱
如果说前一章更多是在谈方法论,那么 ConvNeXt 与 DiT 则展示了这套方法论怎样在具体作品里落地。ConvNeXt 最有意思的地方,不是“卷积网络又赢了一次”,而是它敢于在 Vision Transformer 风头最盛的时候提出一个更尖锐的问题:ViT 到底为什么有效?谢赛宁与实习生刘壮合作时,并没有简单地在卷积网络上做怀旧式修补,而是反过来把 ViT 时代被证明有效的一系列训练和设计习惯重新移植回卷积框架中,再逐项分析哪些因素真正重要。最后得到的结论极具挑衅性:soft attention 也许不是 ViT 最关键的部分,很多收益来自更普适的训练配方、归一化、patchify 风格与 macro design。
ConvNeXt 的真正价值
ConvNeXt 不只是“证明卷积还没死”,而是通过一组极有说服力的 ablation,拆开了 ViT 神话中的多个组成部分。它提醒研究者:当某个范式大获成功时,最重要的工作之一不是盲目模仿,而是辨认到底哪些成分在起作用,哪些只是时代风格的附属物。
这种敢于挑战主流解释的姿态,在 DiT 上体现得更加明显。DiT 的起点并不是“我要发一篇生成模型爆款论文”,而是一个相当基础的问题:diffusion model 学到的表征,和自监督学习的表征相比到底怎样?在研究过程中,他们发现前者远不如后者,于是转而想:既然 diffusion pipeline 里的 U-Net 已经成为默认选项,为什么不能直接把 ViT 当作 denoiser backbone?结果非常简单,也非常有效。简单到什么程度?简单到论文投 CVPR 时被拒掉,理由之一是“太简单”。这一幕几乎像研究史对自身的讽刺:许多真正有力的想法,恰恰因为太直接、太少装饰,而不符合评审对“复杂创新”的想象。
DiT:简单结构的力量
DiT 的核心并不在于引入了多少新模块,而在于它抓住了一个尺度化时代最关键的判断:如果 Transformer 在别的模态上已经证明了其统一性和扩展性,那么 diffusion 体系也应该允许更简洁、更可扩展的主干。越接近基础结构,越可能把系统推向更大的规模和更清晰的解释。
后来 DiT 转投其他会议并成为 oral,LeCun 还专门发推吐槽 reviewer。谢赛宁借这段经历说出另一句很值得记住的话:“所有的 research paper 中或不中一点都不重要...完全是一个纯粹的随机过程”。这里当然不是说评审毫无价值,而是说在前沿研究的边缘地带,很多工作之间的区分本来就极细,评审结果高度受具体 reviewer 口味、时间压力和背景知识影响。若把命中与否上升为对自我价值的判断,就很容易把研究节奏交给一个本质上高噪声的系统。更现实的是,DiT 诞生时 FAIR 已经开始文化转型,他离职后甚至不被允许署名,这又进一步说明,真正有影响的工作并不总能在当下获得“完美归属”。
把审稿结果当作真理,是研究者常见的自伤行为
DiT 和 SiT 都经历了“先被拒、后被认可”的路径。谢赛宁想强调的不是自己受了委屈,而是研究者必须接受一个事实:评审制度只能粗糙抽样,无法完整测量工作价值。若把它误认为终审判决,就会把大量时间浪费在情绪性解释上,而不是继续向前推进。
DiT 后来通过 Bill Peebles 进入 OpenAI 语境,并最终与 Sora 产生明显血缘,这让它更像一篇站在研究与工业边界上的论文。谢赛宁甚至把它只算作“0.25 篇”真正改变 AI 进程的 paper,意思并不是贬低自己,而是极其清醒地承认:很多工作是在大趋势已经形成时,把边界向前推了一小步。正因为有这种尺度感,他才能进一步提出“反脆弱”这个关键词。SiT 也是类似路径,flow matching 加 Transformer 的组合再次经历先拒后中,而这些随机冲击并没有摧毁研究轨迹,反而扩大了工作后来的影响。
Research 必须是反脆弱系统
谢赛宁给出的定义非常实用:一个 random shock 带来的收益若大于损失,这个系统就是反脆弱的。对研究来说,这意味着你不能把全部价值压在某一次投稿、某个组织归属或某条单一路线上。相反,好的研究布局应当让失败、延迟、误判甚至拒稿,都有机会转化为更大的传播、重组或再发现。
Perplexity 早期 demo 的故事也常被人拿来做 hindsight comedy:Aravind 在 Blue Bottle 咖啡店展示 demo 时,谢赛宁心想“这不就是 GPT 套个壳”,于是婉拒邀请。这个片段真正有意思的地方,不是证明谁看走了眼,而是说明未来往往由许多低维判断叠加而成。有人会错过显而易见的商业化机会,也有人会误判一项研究的长期价值;关键不在于永远押中,而在于让自己的能力结构不依赖每次都押中。反脆弱思维在这里再次成立:你必须构建一种即使偶尔看错,也不会被一次错失定义的人生与研究系统。
本章小结
ConvNeXt 和 DiT 共同说明,谢赛宁最擅长的不是追随热门,而是在热门范式内部追问“真正起作用的变量是什么”。配合对评审随机性的清醒认识和对反脆弱系统的强调,这一章展示的是一种能够承受冲击、并把冲击转化为增益的研究姿态。
视觉与世界模型:从 Cambrian 到终极目标
从 Cambrian 系列开始,谢赛宁的研究目标变得更加明确:不是只做“多模态模型里的视觉模块”,而是要重新讨论视觉表征在通向 world model 的道路上到底处于什么位置。Cambrian-1 背后的一个核心判断是,CLIP 并不一定是最优的视觉编码器。这个判断的重要性在于,它直接挑战了当前多模态大模型中一种近乎默认的工程共识:好像只要把 LLM 接上 CLIP encoder,再加一点 instruction tuning,就足够把视觉引入系统。谢赛宁并不否认这条路线有用,但他更关心的是,它是不是从一开始就在视觉表征上做了过度妥协,从而限制了后续理解、推理和预测能力。
Cambrian:重新追问视觉编码器
Cambrian 系列的关键问题不是“怎样让模型看图回答问题”,而是“什么样的视觉表征才足以支撑更强的理解与世界建模”。当主流系统把 CLIP 视作现成接口时,谢赛宁反而把目光放回 encoder 本身,试图确认多模态系统的上限是否已经被早期视觉表征锁死。
这条线索之所以值得认真对待,还因为它完全延续了他对视觉的原始信仰:vision 不是 task,而是 perspective。Cambrian 的推进方式也很能体现实验室气质。为了在 Google TPU 的 TRC 项目上搭 infrastructure,学生们挣扎了很久,谢赛宁中途甚至劝一个学生先回去继续别的工作,再慢慢把系统搭起来。这个细节说明,所谓“做世界模型”并不只是讲宏大愿景,而是要在极琐碎的基础设施、数据流、训练稳定性和资源协调上不断磨出耐心。若没有这些工程底盘,再漂亮的世界模型口号都只是空转。
到 Cambrian-S,这个愿景从图像进一步延伸到视频。最有意思的灵感来源不是某篇 benchmark paper,而是贾樟柯与毕赣的电影长镜头。谢赛宁说,“人活在这个世界上就是长镜头,我们的眼睛就是我们的相机”。这句话把视觉智能的核心重新拉回到第一人称时间经验上。静态图像当然重要,但人类并不是每隔一秒只看一帧图,我们是在连续流动的视角里理解空间、对象、事件与自我位置。也因此,视频不是图像的简单叠加,而是世界模型必须面对的“时间中的现实”。
视觉智能的 L0–L4 分级
| 层级 | 含义 | |
|---|---|---|
| L0 | 主要依赖 LLM 的语言智能,对真实视觉世界几乎没有内生建模能力。 | |
| L1 | Show \ | Tell 式图文对齐,能描述看见的内容,但理解深度有限。 |
| L2 | Streaming 视觉,开始在连续时间流中保持状态,处理事件与上下文延续。 | |
| L3 | Spatial Cognition,建立三维空间、对象关系与可行动的环境表征。 | |
| L4 | Predictive World Model,不只是理解当前场景,而是能预测、规划并支持行动。 |
这套分级之所以重要,是因为它把“多模态大模型很厉害”这种含糊说法拆成了可讨论的层次。很多今天被视作 impressive 的系统,其实大多还停留在 L1 到 L2 之间:能描述、能问答、能做一些 streaming 汇总,但离真正的空间认知和预测性世界模型还有明显距离。谢赛宁之所以强调在纽约街头拍短片作为论文视频,也是在用一种很具体的方式提醒研究共同体:世界模型不是在网页截图和 instruction benchmark 上自然长出来的,它需要重新回到人如何穿行于城市、如何感知空间、如何在长时间尺度中保持世界一致性的经验上。
进一步说,他把 LLM 定义为“virtual intelligence”,并不是否定语言模型的价值,而是在界定其边界。语言模型可以在数字空间中展现强大的压缩、组合和推理能力,但真实世界要求的不只是“描述正确”,还包括和物理环境发生闭环互动。LeCun 的“拐杖”比喻在这里也能读得更清楚:拐杖让人能走,但不能让人奔跑;语言给智能提供了高层结构,却不足以独立承担面对现实世界的全部负担。对谢赛宁而言,这不是让视觉研究者沮丧的理由,恰恰是巨大机会,因为它说明真正关键的部分还远未解决。
世界模型不等于更逼真的像素生成
谢赛宁反复强调,世界模型是目标,不是某个具体算法,更不是“能生成更漂亮视频”的同义词。像素本身很多时候只是给人看的借口,真正的 world model 并不需要总是输出供人欣赏的内容,它更重要的职责是形成内部可计算、可预测、可规划的状态表示。把世界模型误读成视觉特效竞赛,会严重缩小问题空间。
这也自然引出了他对 scaling law 的重新判断。语言模型的 scaling law 很大程度上建立在互联网文本这种“免费强监督”之上,token 序列在形式上已经高度离散、压缩且可预测;而世界模型面对的是巨量连续感官流,它需要的是一种不同的过滤系统。谢赛宁用人脑作类比:大脑大约用 20W 功率,把每秒近十亿 bit 的感官输入转化为大约 10 bit/s 的行为输出,核心不是暴力记住全部输入,而是通过层级化机制过滤掉绝大多数不重要的信息。由此他得出一个相当反常识的结论:未来世界模型未必需要 trillion 级参数,真正决定性的可能是表征结构、过滤机制和训练目标,而不是单纯堆更大模型。
从 download internet 到 download human
谢赛宁对数据时代的概括非常精准:“过去是 download internet 的时代,现在是 download human 的时代”。互联网文本曾经是最易获取、最结构化的智能痕迹;而下一阶段,更重要的数据将来自人类在世界中的感知、动作、视频与交互轨迹。YouTube 上传 30 分钟视频所包含的信息量,可能就足以让人重新理解“数据规模”这个词。
这里还隐藏着他对“world model”一词的微妙态度。谢赛宁承认自己并不那么喜欢这个词,因为它很容易被 hype 化;但他又觉得 world model 与 word model 的对照足够有力,能帮助外界迅速把问题抓住。语言模型处理的是别人已经说出来的世界,世界模型处理的则是世界本身在感知与行动层面的结构。哪怕这两个词只差一个字母,它们背后的学习目标也完全不同。正因为外界很容易把两者混为一谈,他才反复强调像素只是“借口”、视频也只是“借口”,最终要学习的是能够支撑理解、预测和规划的内部状态。
他对应用出口的判断也因此非常节制。AR 眼镜和可穿戴设备之所以重要,不是因为它们是更时髦的硬件,而是因为它们能持续采样人类如何在世界中感知、选择和行动,从而天然成为 world model 的训练与部署场景。robotics 同理。谢赛宁并不否认机器人是终极落点之一,但他坚持现在更急迫的问题是“大脑”而不是“身体”。如果没有足够强的预测性表征,再灵巧的机器人外壳也只是把弱智能放进更复杂的物理环境里。
在这种框架下,AR 眼镜、可穿戴设备和 robotics 只不过是世界模型的两个主要出口。谢赛宁说过一句很有张力的话:“通过不做 robotics 的方式去解决 robotics 的问题”。他的意思并不是逃避机器人,而是认为现在真正缺的是预训练大脑,而不是再去做一个没有足够世界理解能力的躯体。世界模型若真的建立起来,它既能服务于 always-on personal assistant,也能成为通用机器人所需的大脑底座。
本章小结
从 Cambrian 到世界模型,谢赛宁实际上是在把 Computer Vision 从“感知模块”重新定义为“预测性智能的主入口”。L0--L4 分级、长镜头视角、虚拟智能与真实世界的区分,以及对 scaling law 的重新理解,共同构成了他关于下一代智能系统的核心蓝图。
AMI Labs:与 LeCun 一起创业
谢赛宁把从研究走向创业描述成一条自然延伸的曲线,而不是突然转向。对他而言,world model 并不是一个追逐风口的词,而是 representation learning 继续往前走的结果。真正改变节奏的,是 2025 年那次与 Yann LeCun 的对话。原本是 mentor 建议他不妨去问问 LeCun 是否愿意一起做点事情,结果在第二周的 1 对 1 meeting 里,LeCun 自己主动提出想出去创业。两人的愿景高度一致,都是 building the predictive brain。谢赛宁形容那种感觉 “跟 Yann 说话有点像 casting spells...他说一些话,你就不会想其他的了”,只纠结了一周便决定加入。
AMI Labs 的起点:愿景先于组织
AMI Labs 最有意思的地方,是它并不是先有公司壳子、再去寻找一个能融资的故事,而是先有“predictive brain”这个研究方向上的高度共识,再据此组织团队、资本与执行结构。谢赛宁加入的理由也不是“创业更赚钱”,而是看见一个罕见的窗口:可以把世界模型从学术命题推进成面向真实产品与长期技术栈的组织工程。
这条路径之所以成立,还因为谢赛宁此前已经两次拒绝了更显赫、也更容易被外界视作“正确”的机会。第一次是博士毕业时拒绝 OpenAI,甚至引来 Ilya Sutskever 打电话表达强烈不满;第二次是 2024 年 SSI 成立时再次拒绝 Ilya。把这两次拒绝和 AMI 的选择放在一起看,会发现谢赛宁并不是简单地“远离工业界”,而是一直在寻找一个更符合自己问题意识的场所。若一个组织只是把世界模型当作 PR 包装、或只允许围绕短期产品指标优化,那么即使资源再多,也不一定适合他。
这就解释了他为什么明确说不想加入当下的硅谷大厂或封闭 lab。在他的观察里,硅谷近年的主旋律是关闭、保密、不发论文、不开放源码,对探索性研究反而有一种天然抵触。大公司的军备竞赛压榨了 research 的氧气,许多团队虽然名义上仍有研究职能,实质上却被产品时间表和算力资源争夺彻底牵引。谢赛宁要找的不是纯 research lab,也不是完全封闭的大模型公司,而是二者之间一个非常难得的平衡点:既足够严肃到能做创业公司,组织上能承担长期投入;又保留足够 research freedom,不把所有工作都压缩成季度 KPI。
“去最有钱的地方做最前沿的研究”已经不再自动成立
谢赛宁对硅谷的批评,不是简单的地域情绪,而是对研究环境变化的判断。当保密、军备竞赛和资本预期压过开放讨论时,最有资源的地方未必最适合做最探索性的工作。把“资金最多”误认为“研究环境最好”,是今天不少年轻研究者容易犯的认知错误。
AMI Labs 的组织设计因此也颇有象征性。初始团队大约 25 人,估值约 30 亿美元,包含 6 位 co-founder、CEO 与负责 world model 的核心高管。更令人印象深刻的是,多位联合创始人放弃了 OpenAI 或 Meta 已经 vested 的数千万美元 stock,选择重新上桌。这个细节说明,团队成员并不是在追逐一个“更高估值”的简单财务游戏,而是在押注一个他们认为比既有平台更接近未来主线的技术方向。对谢赛宁来说,这也符合他一贯的判断标准:重要的不是今天看起来哪家公司最像终局,而是你正在和谁做什么。
为什么是纽约,而不是硅谷
AMI Labs 选择纽约,既有 Yann LeCun 长期在 NYU 的学术根基,也有对城市气质的主动判断。谢赛宁那句 “Silicon Valley is very unpeeled” 带着鲜明个人色彩,意思大致是说,那里太容易被奢侈、估值和同温层幻觉催眠。纽约则更像真实世界的截面:金融、艺术、移民、街头、电影、学术同时存在,让人不至于误以为 AI 就是世界本身。
创业感受部分还有一个极具行动意味的比喻:滑雪。谢赛宁说,滑雪时要无所畏惧地把肩膀朝向山下,这件事非常反本能,因为人在害怕时会本能地后仰、减速、想把自己从坡面上抽离;但恰恰是这种防御动作最容易导致真正失控。创业也是一样。当问题越来越大、责任越来越具体时,你不能只想着保全自己在原有体系中的舒适位置,而要主动把身体转向那个最陡、但也是唯一真正向前的方向。
创业像滑雪,也像研究
滑雪和研究、创业共享一个很深的结构:人在高不确定环境里最自然的反应往往是收缩,但真正有效的动作通常是更主动地迎向问题。谢赛宁借这个比喻说明,他看重的团队成员并不只是简历亮眼,而是是否真的有勇气把肩膀朝向山下,愿意长期面对一个难题,而不是只在顺风时看起来很投入。
访谈里还有一个很重要但容易被忽略的点:AMI Labs 并没有把自己叙述成一个“反学术”的创业公司。相反,它试图继承的是 LeCun 那一套科学家式的完整性,同时又承认如果世界模型真的重要,就不能永远停留在 paper 和 talk 里。研究与创业在这里不是对立的两个阵营,而是同一个问题在不同时间尺度上的两种推进方式。前者负责把概念做实,后者负责把组织、资本和人才配置到足以承载长期目标的结构里。
在这个意义上,谢赛宁的创业决定其实相当一致。他并没有从“研究理想主义者”变成“商业现实主义者”,而是把自己长期相信的视觉与世界模型路线,放到了一个需要承担更大后果的新场域中。这里的风险当然更高,节奏也更快,但正如他在访谈中反复展现的那样,他并不害怕把自己放进高不确定性的系统,只要这个系统的问题意识足够真实。
本章小结
AMI Labs 的出现,既是谢赛宁世界模型研究的自然延伸,也是他长期反对把短期平台光环当作终点的又一次实践。两次拒绝 Ilya、拒绝封闭硅谷逻辑、选择纽约与 LeCun 共同创业,说明他真正追求的是能把 predictive brain 当成主线来建设的组织环境。
Yann LeCun 与 JEPA 框架
谈到 Yann LeCun,谢赛宁的描述非常生动:网上的 LeCun 是“斗士”,现实中的 LeCun 则是“很好很好的人”。这种反差本身并不罕见,但在 LeCun 身上尤其有趣,因为他始终同时扮演科学共同体中的争论者与组织中的稳定者。一方面,他在公开场合坚定捍卫自己对 LLM 局限性的判断,不会为了公司叙事而轻易转口;另一方面,他又有极强的个人兴趣和生活感,造模型飞机、做天文摄影、听电子乐与 Jazz、开帆船,这些爱好让他看起来更像一个始终处于青春期延长期的人。何凯明那句 “LeCun 是一个 16 岁青春期一直延续到 65 岁的人”,并不是调侃,而是对一种旺盛好奇心和玩心的精确概括。
LeCun 的人格结构
谢赛宁看到的 LeCun,并不是单一的“图灵奖得主”形象,而是一个持续动手、持续好奇、持续公开争辩的人。模型飞机、天文、Jazz、帆船这些兴趣的共同点,在于都需要长期投入、技术感与审美感并存,也都要求人既尊重现实约束,又保留探索未知的兴奋。
这种人格结构和他的管理方式是一致的。谢赛宁说 LeCun 管团队像开帆船:绝大多数时间,你需要充分信任每个人在自己的位置上发挥;但一旦看到风向、海流或船体姿态有偏差,就要尽早校正,而不是等问题扩大后再强硬拉回。对研究组织来说,这是一种很成熟的管理哲学。因为真正有创造力的人不能被过度 micromanage,可若完全放任,又容易让团队在局部兴趣中分散。帆船管理法在这里的核心,是让组织保持方向感,同时不过早扼杀每个人独立发现问题的能力。
JEPA 正是在这样的背景下被理解的。谢赛宁特别强调,JEPA 不是一个模型,而是一个非常广阔的海洋。它不是“某篇论文里的一个模块组合”,而是一套关于表征、预测与规划的总体框架。也因此,他把自己理解 JEPA 的过程总结成三个阶段:质疑 JEPA,理解 JEPA,成为 JEPA。这种说法听起来像玩笑,却准确抓住了很多前沿框架的认知路径。最初你会觉得它太抽象、太宽泛、像一个几乎什么都能往里装的概念;但当你反复看 LeCun 的 talk、把它放回世界模型语境中思考,就会逐渐意识到,JEPA 的广阔不是含糊,而是因为它确实试图覆盖从 world understanding 到 prediction 再到 planning 的整条链路。
JEPA 的三阶段认知
| 阶段 | 典型状态 |
|---|---|
| 质疑 JEPA | 觉得它过于抽象,不像一个“立刻可跑”的 recipe,难以和现成 benchmark 对齐。 |
| 理解 JEPA | 开始意识到它在描述一种更高层的学习目标:不是拟合像素或 token,而是学习对世界状态有预测价值的抽象表示。 |
| 成为 JEPA | 不再把它当成某个单独方法,而是把表征、预测、规划与行动统一放入同一框架下思考。 |
这种框架思维也支撑了 LeCun 对 LLM 的长期批评。谢赛宁引用那句极具戏剧感的话:“LLM 终将凋零...老兵不死,终将凋零”。这并不是说语言模型会突然失效,而是说它们不会成为构建通用智能系统的最终基石。原因很清楚:如果一个系统主要通过文本序列学习,它就在很大程度上被限制在“他人已经压缩好的世界描述”里,而没有充分建立起面对现实的自有世界模型。JEPA 的雄心,正是要绕开这种局限,去学习更接近世界结构本身的表示。
把 LLM 当作终局,是一种阶段性幻觉
LeCun 和谢赛宁并不否认 LLM 的巨大价值,但他们都反对把今天的语言模型能力直接外推成终局。语言是极强的抽象工具,却不是全部现实。若一个系统主要依赖语言对齐世界,它就仍然像拄着拐杖前行。拐杖可以帮你站起来,却未必足以让你跑进真实世界。
LeCun 在谢赛宁这里之所以有说服力,还因为他始终保留科学家式的 integrity。访谈中一个很重要的观察是:即使所在公司、所处风向、资本市场的偏好都在推动“向 LLM 靠拢”的叙事,LeCun 也不会因为组织需要而公开修改自己对技术路线的根本判断。这种坚持并不总让人舒服,却对一个研究共同体极其重要。因为如果最核心的问题判断都可以随着风口随意改写,那么所谓研究方向就会退化成营销话术的延长线。
谢赛宁一再观看 LeCun talk 的经历,也说明 JEPA 并不是那种“听完就懂”的框架。它要求研究者逐渐建立更高层的抽象习惯:不要急着问它对应哪一个榜单、哪一个 loss、哪一个模块,而要先问它到底在刻画什么学习目标。正因为这种理解过程很慢,JEPA 才容易在早期被误判成空泛;也正因为它足够宽,才可能在未来容纳更完整的世界理解与规划体系。
谢赛宁还提到,自己把 LeCun 的 talk 看了十到二十遍,每次都有新收获。这句话很能说明 JEPA 的理解门槛。真正宽的框架,不会在第一次听时就被完全吸收;它需要你带着不同阶段的经验反复返回。某种意义上,这与他对研究的理解高度一致:好的理论不会只给你一个结论,而会在你能力变化后继续提供新的可见度。
最后还有一个很温暖的比喻。谢赛宁说,“Yann 是一个巨大的电池,他赶着我,我希望把电力输送下去”。这句话说明 LeCun 在他心中并不仅是思想导师,也是能量源。一个真正强的学术领袖,不只生产观点,还能把身边人的势能整体抬高,让他们愿意往更难的问题上持续投注。
本章小结
在谢赛宁眼里,LeCun 之所以重要,不只是因为其历史地位,而是因为他把人格、管理和方法框架统一起来。JEPA 的广阔、对 LLM 终局论的警惕、帆船式管理与“巨大电池”式的带动能力,共同解释了为什么谢赛宁愿意把下一阶段押在与他同行之上。
总结与延伸
这场近七小时的访谈如果只压缩成一句话,大概可以说:谢赛宁把研究看成一种长期、非线性、必须不断回到真实世界的问题实践。无论是从互联网少年到 ACM 班,从 UCSD 到 FAIR,再到 Cambrian、JEPA 与 AMI Labs,他最稳定的信念始终不是“追逐风口”,而是追问什么样的智能才真正与世界发生关系。也正因此,他对 research 的理解天然更接近“无限游戏”。他引用 Bill Freeman 的观察,强调论文质量与职业影响不是线性关系,一个 researcher 更像发明家,“这辈子真的只需要成功一次就够了”。当学术界被大厂的竞赛节奏拖成有限游戏时,这种判断反而显得更珍贵。
Research 作为无限游戏
在无限游戏视角下,研究的核心不是每轮都赢,而是持续留在牌桌上,保持感受问题、发现信号、重组路线的能力。一次真正重要的突破,就足以改变个人轨迹与领域方向;因此比起频繁结算短期输赢,更关键的是长期积累 taste、耐心和对高价值问题的执念。
这也解释了他为什么会把 AGI 视为某种伪命题。LeCun 与 Demis 的争论在他这里被重新表达为:人类智能本来就是高度 specialized 的,把“通用”当成一个单轴指标本身就不严谨。谢赛宁引用 Rich Sutton 和动物智能的例子,指出 “能够重新造出一只松鼠,要比人类文明在 530 million years 最后 8 秒创造的东西伟大得多”。这句话并不是在贬低 IMO 金牌、数学推理或软件工程,而是在提醒听众,真正令人震撼的智能并不总出现在人类文明最自豪的那些符号任务里。能在真实世界中自我维持、感知、行动、学习的生物智能,可能比一系列高分 benchmark 更接近“我们到底想造什么”。
“放开维特根斯坦”:不要滥用名人名言为潮流背书
谢赛宁特别反感把维特根斯坦“语言的边界就是我世界的边界”断章取义地拿来给 LLM 背书,因为后期维特根斯坦早已通过“语言游戏”修正了早期立场。同样,费曼的 What I cannot create, I do not understand 也常被拿来做廉价口号。谢赛宁真正想说的是:“语言本身没有意义,之所以发生意义是因为跟真实世界的实践发生了关系”。脱离实践的引言堆砌,只会制造概念幻觉。
访谈后段的情绪也很值得注意。谢赛宁说,research 的底色其实相当悲凉,天天都会感到沮丧,真正快乐的时候也许只有 \(5\%\) 到 \(10\%\)。这个描述很诚实,也和他前面讲的非线性研究过程完全一致。真正的研究日常不是持续高潮,而是在黑暗中摸索,在大量不确定和失望里保护一点点对问题的信念。也正因如此,他认同克洛普式的“电池精神”,希望自己能 empower 身边的人。他说 “I am not the special one, I am the normal one”,并不是自谦式姿态,而是在拒绝把研究成就神化为不可学习的天赋。普通人也可以成为系统中的关键变量,只要他愿意长时间把自己接在一个高价值问题上。
这种“回到普通人”的姿态,也和他在纽约的生活感悟连在一起。每天穿过 Washington Square Park,是他最解压的时刻,因为那提醒他:不是所有人都关心 AI,这个世界比研究圈和创业圈想象得要大得多。这个提醒很关键。它不仅能帮助研究者抵抗行业同温层,也能让人重新理解“为什么要做世界模型”。如果世界最终只是被还原成一场圈内话语竞争,那么智能研究就会失去自己最初面对现实的野心。对谢赛宁来说,人与人之间真诚的交流、城市中的真实生活、艺术与电影的感受力,和技术路线并不是分开的。
推荐书与延伸阅读
| 书目/材料 | 延伸意义 |
|---|---|
| Gödel, Escher, Bach | 从形式系统、递归、自指与意识问题切入,训练跨学科思考能力。 |
| 禅与摩托车维修艺术 | 讨论“质量”、技术与生活世界之间的关系,适合与 research taste 一起理解。 |
| Are We Smart Enough to Know How Smart Animals Are? | 帮助跳出狭隘的人类中心 AGI 叙事,重新看待动物智能与 specialized intelligence。 |
| Story | 从叙事结构理解论文写作,尤其适合体会“paper 不是流水账”这一判断。 |
| 金刚经 | 不是宗教阅读要求,而是帮助训练“见相非相”的抽象能力,理解何谓 research taste。 |
访谈尾段还有两个很值得放进总结的判断。其一是他对视频生成现状的看法。谢赛宁认为像 C-Dance 这样的系统非常强,背后可能已经使用了极大规模的架构与工程优化,但如果把问题再往下拆,视频生成的 \(90\%\) 到 \(95\%\) 仍然是数据问题,而不是架构问题。这种判断与前文世界模型的讨论完全一致:真正决定系统上限的,不只是换一个更“巧”的 block,而是你究竟让模型接触到了什么样的真实世界轨迹、什么样的运动统计、什么样的时间一致性样本。
其二是他对书的描述:“有些书会把你装满,有些书会把你掏空”。这句话很适合用来理解他给出的阅读清单。像 GEB 这样的书,确实会把人装进大量结构、隐喻与跨学科联想里;而《禅与摩托车维修艺术》或《金刚经》这类文本,则更像是在不断把你对“解释”“质量”“本质”的既有抓手掏空,让你重新审视自己到底在追什么。这种“装满”与“掏空”的交替,也许正是形成 research taste 的隐秘条件。
为了把整场访谈的核心判断更紧凑地收束,下表按照“问题意识”而不是时间顺序,对谢赛宁的主要观点做一个汇总:
| 主题 | 核心观点 |
|---|---|
| 主题 | 核心观点 |
| 成长与选择 | 不必把自己套进标准优等生模板,关键是尽早形成广泛兴趣、主动争取机会,并找到与自己气质匹配的环境。 |
| 视觉信仰 | Vision 不是一组任务,而是通往智能本质的 perspective;解决视觉问题,本质上是在解决智能如何接入真实世界。 |
| 导师与训练 | 真正重要的是跟谁做什么,而不是学校标签;博士训练首先是在学习一套研究操作系统。 |
| 研究评价 | 不要执着于 point estimate,中稿、奖项和短期排名都只是噪声较大的抽样,长期影响更像积分。 |
| 何凯明方法论 | 好 research 非线性产生,真正属于你的 idea 只能在探索、障碍和负面结果中出现。 |
| 研究审美 | 要能穿透“像”看到“相”,把复杂现象压缩成更本质的结构判断,再用清晰叙事把 paper 讲出来。 |
| ConvNeXt/DiT | 在主流叙事内部追问真正起作用的变量,比盲目追随范式更重要;简单设计往往更接近可规模化的答案。 |
| 反脆弱 | 研究系统不能把价值押在一次投稿或一次组织归属上,而要能把随机冲击转化为增益。 |
| 世界模型 | LLM 是虚拟智能,世界模型才是面向真实世界的长期目标;其 scaling law、参数规模与数据形式都会不同于文本模型。 |
| AMI Labs | 创业不是脱离研究,而是在一个新组织层面继续建设 predictive brain,把长期技术主线与组织能力捆绑起来。 |
| JEPA | JEPA 不是单个模型,而是学习世界表征、预测与规划的广阔框架;理解它需要反复回到问题本身。 |
| AGI 讨论 | “通用智能”若被当成单轴目标容易失真,能重造一只松鼠,比在符号任务上赢得高分更接近真正的智能挑战。 |
| 语言与意义 | 语言本身不自动携带意义,意义来自与真实世界实践的连接;脱离实践的引用和概念很容易被滥用。 |
| 人生感悟 | 相信命运但无法预测命运;每个人都可能是世界中的关键变量,重要的是持续把自己放在真实问题面前。 |
最终,谢赛宁留给听众的不是一套可以立即执行的创业手册,也不是一份研究者个人神话,而是一种更难得的东西:在巨大不确定性里继续保持判断力的方式。你可以相信命运,但不能假装能提前算出命运;你需要面对世界的复杂度,而不是把它缩减成几个流行词。正如他在结尾所说,真正关于生命、宇宙、人生的问题,也许需要“地球这么大的计算机”才能回答,而答案最后可能仍然只是 42。这个幽默的收束,恰好为整场访谈定下了最贴切的尾音:严肃,但不僵硬;雄心很大,却始终保留对未知的敬畏。
本章小结
整场访谈最终收束到三个层面。其一,研究是一场无限游戏,真正重要的是长期问题意识与反脆弱能力。其二,世界模型之所以成为谢赛宁的北极星,是因为它比“更强语言模型”更接近真实世界中的智能。其三,无论是书单、电影、城市感受还是对名言滥用的反感,都说明他始终在努力把技术重新放回更广阔的人类经验中理解。
附录:关键引语索引
访谈里最值得反复回看的内容,往往并不是某个新闻点,而是这些被谢赛宁反复压缩成一句话的判断。它们之所以有力量,不是因为措辞漂亮,而是因为每一句背后都对应着一个长期问题意识。下面把全场最重要的一组引语与其语境整理成索引,方便后续回看时快速定位其思想位置。
| 关键引语 | 所对应的问题意识 |
|---|---|
| 关键引语 | 所对应的问题意识 |
| “眼睛是唯一一个暴露在真实世界里面的大脑部分...解决视觉不是要解决视觉本身,而是要解决智能本身” | 这是整场访谈最核心的理论前提。它把视觉从具体任务提升为智能与现实世界之间的接口,也解释了为什么谢赛宁后来会一路走向 world model。 |
| “Research 从来不是一个线性的发展,一个线性发展的 research 永远不是好的 research” | 这句话定义了他对创造性工作的基本理解。好的研究必须包含偏航、冲突和重写问题的过程,否则说明问题本身还不够深。 |
| “一开始你想的 idea 不是你的 idea,探索中的 idea 才是属于你的 idea” | 它强调真正属于研究者的洞见只能在做事过程中长出来,而不是在空想阶段一次性想明白。探索不是准备动作,而是 idea 生成本身。 |
| “凡所有像皆是虚妄,若见诸像非相,即见如来” | 在访谈语境里,这不是宗教引文展示,而是对 research taste 的描述:不要被论文表象、术语包装和局部指标迷惑,要追问背后的实质变量。 |
| “LLM 终将凋零...老兵不死,终将凋零” | 这句判断的重点不是否定语言模型,而是否定把 LLM 当作终局。它指向的,是语言模型在真实世界表征与规划能力上的结构性局限。 |
| “过去是 download internet 的时代,现在是 download human 的时代” | 它重新定义了下一阶段 AI 数据基础。文本互联网不再是唯一中心,视频、感知、行为和人类在世界中的轨迹将成为更关键的训练来源。 |
| “能够重新造出一只松鼠,要比人类文明在 530 million years 最后 8 秒创造的东西伟大得多” | 这句话用动物智能批评狭义 AGI 叙事,提醒我们不要把高分符号任务误当成智能本身。真实世界中的生存、感知与行动,难度远高于若干抽象 benchmark。 |
| “I am not the special one, I am the normal one” | 这既是对个人神话的拒绝,也是对“电池精神”的肯定。研究共同体需要的不是少数被神化的天才,而是愿意长期给问题和他人供能的人。 |
| “不要在乎一个 point estimate...所有的评价最后都会是一个积分” | 它总结了谢赛宁对评审、中稿、奖项与短期成败的态度。局部评价是高噪声抽样,真正重要的是更长时间跨度上的累计影响。 |
| “每个人都是这个世界上一个变量,有可能你就是最重要的那个变量” | 这是他对年轻研究者最直接的鼓励之一。面对高度竞争和强路径依赖的系统,个人仍然应该保留主动进入场域、主动联系机会、主动承担风险的意志。 |
如果把这十句引语并排来看,会发现它们其实都指向同一个中心命题:真正值得投入一生的问题,通常不在短期评价最清晰的地方,而在那些仍然需要你亲自进入、亲自摸索、亲自承担不确定性的地方。谢赛宁无论谈视觉、研究方法、创业还是人生,都没有离开这个命题。