访谈笔记:胡渊鸣——Meshy AI、太极、MIT、清华姚班、图形学与创业哲学
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | WhynotTV |
| 日期 | 2025-08-08 |

引言:胡渊鸣是谁
本期访谈是 WhynotTV Podcast 第二期,主持人泰然与 Meshy AI CEO 胡渊鸣进行了长达三小时的深度对话。胡渊鸣的经历极为丰富:从小学开始编写物理仿真程序,本科就读于清华姚班,MIT 博士期间独立创造了太极(Taichi)编程语言,博士毕业后创业成立太极图形,历经18个月的商业化探索后转型推出 3D 生成式 AI 平台 Meshy,现服务用户超400万,年营收增长超10倍。
当被问到"胡渊鸣是谁"时,他的回答简洁而深刻:
自我定义
"我是一个被自己的兴趣和使命感驱动着去做事的人。"——这句话贯穿了整个访谈,从小学写游戏到创建太极再到创办 Meshy,兴趣驱动始终是胡渊鸣行动的核心逻辑。
访谈内容涵盖:对科技和世界本质的思考、博士期间的自我颠覆、创业的生死转型,以及"每三个月杀死过去自己"的进化哲学。以下按主题梳理其中的核心观点与教训。
| 时间 | 事件 | 关键词 |
|---|---|---|
| 幼儿园/小学 | 用 VB6.0 写物理仿真和游戏 | 兴趣萌芽 |
| 初中 | 计算机竞赛(NOI)、弹簧质点系统 | 基础积累 |
| 高中 | 刚体仿真、多米诺骨牌 | 发现建模局限性 |
| 2013–2017 | 清华姚班本科 | MSRA实习、CVPR论文 |
| 2017–2021 | MIT 博士(CSAIL) | 太极、DiffTaichi |
| 2020 | NVIDIA 实习、Games201课程 | 编译器实战 |
| 2021 | 博士毕业、创立太极图形 | 开始创业 |
| 2021–2022 | 太极商业化探索 | 18个月摸索 |
| 2022下半年 | 看到 ChatGPT/SD、Pivot 到 Meshy | 第一性原理 |
| 2023 | Meshy 产品快速迭代 | 8小时上线 |
| 2024–2025 | Meshy 400万用户、年增长10倍+ | 市场第一 |
成长与求学:从模拟世界到理解世界
童年:用加减乘除创建虚拟世界
胡渊鸣的父母从事计算机教学工作,他在幼儿园时期就接触了计算机,玩过仙剑奇侠传、红色警戒、帝国时代等游戏。这些经历催生了一个核心感悟:用加减乘除就能在计算机里创建一个世界。
更深层的哲学思考在那时就已萌芽。他回忆小时候看楼下的桃树,思考一个问题:"当我不在观测这棵桃树的时候,它是在默默生长,还是在偷懒保持原样,直到我看到它的一瞬间才长成应有的样子?"后来他意识到,作为被模拟的一员,你无法区分这两种情况——这与量子力学的"观测者效应"异曲同工。
模拟假说(Simulation Hypothesis)
胡渊鸣从儿时的哲学直觉延伸到对物理世界的理解:普朗克常数可能是模拟系统的浮点数精度限制,光速可能是计算资源不足导致的交互距离限制,宇宙大爆炸可能只是初始条件设置。这种思维方式深刻影响了他后来对物理仿真和 AI 的看法。
上小学后,他用 Visual Basic 6.0 编写物理仿真代码,在尚未学习牛顿定律的情况下,通过编程"自己发现"了牛顿第二定律——当他用键盘方向键直接移动物体时觉得不真实,于是给物体定义了速度增量,后来才知道这就是 \(F = ma\)。
| 阶段 | 工具/语言 | 仿真内容 |
|---|---|---|
| 幼儿园/小学 | Visual Basic 6.0 | 宇宙飞船游戏、基础物理仿真 |
| 小学/初中 | RPG Maker XP, Ruby | RPG游戏、弹簧质点系统(Mass-Spring) |
| 高中 | C++ | 刚体仿真(Rigid Body)、多米诺骨牌 |
| 本科(清华) | C++, CUDA | 流体仿真、SIGGRAPH 论文复现 |
| 博士(MIT) | Taichi, LLVM | MPM、可微仿真、编译器 |
初中时他构建了弹簧质点系统(Mass-Spring System),灵感来自游戏 World of Goo——你有很多球,可以把它们连起来搭成建筑物,在计算机里面表现出来就是 mass-spring system。高中时开始研究刚体仿真(Rigid Body Simulation),尝试在电脑中模拟多米诺骨牌——"因为在现实世界中堆了一个东西,没有场地,而且不小心碰一下就全完蛋了。"
在这个过程中他发现:两个刚体之间的碰撞、摩擦等模型都是近似模型。这一认知后来深刻影响了他对 simulation 局限性的理解——也奠定了他后来在博士阶段做可微仿真、以及对 data-driven simulation 持开放态度的基础。
初中到高中期间,大量时间被计算机竞赛占用(NOI 等),competitive programming 锻炼了"在很大压力下把代码写出来写对"的能力——这个技能"到现在还是让我很受益"。
竞赛编程对创业的影响
虽然胡渊鸣没有显式提到竞赛编程与创业的关系,但从访谈中可以看到几个隐性连接:
- 限时解题 \(\rightarrow\) 快速迭代:竞赛要求在有限时间内写出正确代码,创业要求快速试错、快速迭代。Meshy 从零到上线只用了8小时。
- 边界条件思维 \(\rightarrow\) 系统设计:竞赛选手习惯考虑各种 corner case,这种思维在设计编译器和分布式系统时极为重要。
- 竞争压力 \(\rightarrow\) 抗压能力:在高压环境下保持冷静和高效,是竞赛和创业的共同要求。
- 排名文化 \(\rightarrow\) 结果导向:竞赛有明确的排名反馈,培养了"尊重事实、不自欺"的习惯。
清华姚班:认识天外有天
进入清华姚班后,胡渊鸣收获的最大财富是"认识了一帮非常厉害的同学"。有人平时不怎么学但考试100分,有人轻松拿到 ACM World Final 金牌。他分享了一个印象深刻的挫败经历:
"第一门课叫'计算机应用数学'。一般到清华你会先学微积分、线性代数、概率论,但那门课好像直接 assume 你会了这些,直接开始讲。最离谱的是老师说'这个知识点我上课没来得及讲,所以我就把它出成了考试题目,希望你们在考试的时候能掌握这个知识点。'考完大家都说好难,有一个同学说'我要挂科了好难好难'——最后发现他考了98.5分。"
更早认识厉害的人
"更早地知道一些厉害的人,对一个人的成长有很大的帮助。它会让你知道天外有天、人外有人,原来自己也没有自己想的那么厉害,原来还有很多可以提升的地方。"——这种认知不是从姚班才开始的,早在初中搞竞赛、参加江苏省省队时就已经体验过。
在清华时,中国做图形学的机会不多,最优秀的同学大多去搞 AI(当时正值 AlexNet、ResNet、AlphaGo 接连爆发)。胡渊鸣基本上自己在宿舍看 SIGGRAPH 论文、复现效果——这段独立研究的经历意外地训练了他后来创业时"从零开始"的能力。
他也去微软亚洲研究院(MSRA)实习,在 Steve Lin 老师的网络图形组做了 CVPR 论文(用神经网络预测白平衡)和 GAN+RL 的图像后处理工作——后者训练了1000多个模型才勉强得到一个可用结果。这段经历让他对当时 AI 技术的成熟度有了清醒认识:RL 的 sparse reward 问题"到今天其实都没有解决"——"今天也没有,我们过去一周捏了一周的 reward function。"
一个值得注意的细节是:他在清华本科期间所有能发表的论文全部都是 AI 方向的——"Graphics 一篇都没发出来"。虽然他最热爱 Graphics,但 AI 方向更容易出成果。这也预示了后来的趋势——Graphics 和 AI 的深度融合。
不要太迷信论文
"科研有很多局限性,不能太迷信论文里面说的事情。"——他在复现 SIGGRAPH 论文时发现,很多论文并没有把所有细节写清楚,这个教训让他后来在太极项目中坚持"所有实验结果都可通过一行命令端到端复现"。
MIT 博士:从差点退学到创造太极
2017年进入 MIT,胡渊鸣的第一年非常痛苦——与导师研究兴趣不一致,需要花大量时间做自己不 enjoy 的事情。他是一个"让我做 enjoy 的事可以1000%努力,但做不 enjoy 的事会很痛苦"的人。
转机来自两位清华学长的建议:家俊建议他"把 simulator 搞成 differentiable",这后来催生了 ChainQueen 和 DiffTaichi 两篇重要论文;俊彦则强调了"做有 impact 的 research"的重要性。最终他换到 Fredo Durand 和 Bill Freeman 的组,两位导师都比较 hands-off,给了他充分的研究自由。
如果重读 PhD 会做的四个改变
- 选择方向:不去 NVIDIA 写太极,而是接受 Kaiming He 的 offer 去 FAIR 做 AI 研究——更早接触 AI frontier
- 拓宽范围:还是做太极,但不局限于 physical simulation,更早向 Transformer 优化方向发展
- 高目标:仍以一年毕业为目标——"求上而得中,求中得下,求下而不得"
- 多交流:花更多时间和不同领域的厉害的人交流,而不是天天把自己关在宿舍写太极
关于第四点,他引用了 Richard Hamming 的观点:"如果你把自己关在办公室、把门关着每天做自己的事情,短时间内你当然能产出更多。但五年以后,你一定不知道该做什么。"——把门开着、多听其他人在做什么,才能发现值得解决的重要问题。
MIT 与 Stanford:地理位置如何影响学术方向
胡渊鸣对 MIT 和 Stanford 在 AI 时代的差异有一个独到观察。2017年他入学时,MIT 的 CSAIL 并没有很多人做 AI——整个 Boston 地区的创业氛围以 Biotech 为主,缺乏 AI 产业驱动。
产业生态如何塑造学术方向
"MIT 和 Stanford 这种靠近产业中心的学校比起来,对 AI 的接受程度其实要低很多。由于没有产业驱动,整个 Boston 做的更多的还是 Bio。出厂公司基本上是 Bio 领域的。"——这导致 MIT 在整个 AI 时代跟得没有特别紧。"这可以是好事也可以是坏事——需要辩证地看。"
这个观察对理解学术生态有重要启示:一所大学的研究方向不仅由教授们的兴趣决定,更受周围产业生态的深刻影响。Stanford 之所以成为 AI 重镇,与硅谷的科技产业密不可分。
做科研的"95/5法则"
胡渊鸣在知乎文章中引用过爱因斯坦的一句话:"如果给我一个小时解决一个问题,我会花55分钟想什么是正确的问题,然后花5分钟去解决它。"这个"95/5法则"成为他对科研方法论的核心总结。
他在面试每一位 Meshy 求职者时都会问:"你做的事情重要吗?"当被反问"你现在最近做的最重要的一件事情是什么"时,他的回答是:招聘(40%的时间)、思考未来战略(30%)、参与日常业务(30%)。
大多数 PhD 在阶段二仍在"灌水"
"你发了一篇论文,觉得做得很好,但和别人聊起来他们一点也不 exciting;你的文章只有几个人关注。为什么?因为你没有想清楚什么样的方向才是重要的方向。当你经过足够多的挫败和反思,才能知道:一个好的方向应该是什么样的。"——很多 PhD 在有了3-4篇顶会论文后,仍然在用阶段一的"卷产出"思维去灌水,而没有切换到阶段二的"寻找重要问题"模式。
他以凯明(Kaiming He,何恺明)为例作为成功的"阶段二 PhD"典范——ResNet 就是"一个加号",但它的影响力远超几十篇普通论文。他在知乎文章中写过"不要只做 SIGGRAPH 里面的小鱼,要去整个 CS 的池塘里面做大鱼"。如果太极 2.0 能在大模型时代有广泛应用、影响力达到1.0的50倍以上,他觉得"就做成一条大鱼了"。
关于运气:99%的归因
胡渊鸣反复强调运气的重要性。当被问到"你很早就知道自己 enjoy 什么,这是天资还是运气"时,他的回答令人深思:
运气是底层操作系统
"我觉得天资就是运气。你就是 genetically 抽中了一个比较好的基因,恰好在这个时代又需要你这个基因能做的事情。所以我觉得可能99%都是运气。甚至你能努力也是运气的一部分——因为你有这个运气,所以你知道你喜欢什么,所以你可以努力。"
这种对运气的高度归因并非消极——它实际上是 humble 的极致体现:承认自身优势的偶然性,对那些不如自己幸运的人保持同理心。同时这也解释了为什么他不批判选择"躺平"的人——"那是个人选择,能过得开心也很好。"
本章小结
胡渊鸣的成长路径展现了几个关键特质:(1)极早发现自己的兴趣并持续深耕;(2)通过实践"自己发现"物理定律,而非被动学习;(3)在每个阶段都遇到更强的人,保持 humble;(4)对学术研究保持批判性思维。他对导师关系的处理(从第一年的痛苦到换导师后的自由)、对职业选择的反思(后悔没去 FAIR)都展现了真诚的自我审视能力。
太极(Taichi):一个人的编程语言
什么是计算机图形学
胡渊鸣对计算机图形学的定义简洁有力:用加减乘除创造一个虚拟世界。CPU 和 GPU 都只能做加减乘除和三角函数,但却要用这些最基本的 building blocks 创建栩栩如生的游戏画面。
图形学的发展大致分几个阶段:
- 可视化与真实感渲染(约1995年前)
- 物理仿真(1995年后):Fedkiw 等人的烟雾模拟(Visual Simulation of Smoke)开启了仿真时代
- 计算摄影学:super resolution 等技术,与 CV 不分家
- Neural Graphics:DLSS、NeRF、Gaussian Splatting 等 AI 驱动的新范式
判断一个领域是否在衰退的信号
"当你发现一个问题越来越干净、越来越被 well-defined 的时候,就说明这个问题没什么可做的了。当它形成了特别系统的 benchmark,当解法搞得越来越复杂的时候,说明开疆拓土的机会已经比较少了。"——胡渊鸣以渲染领域的 AMCMCPPM(自适应马尔科夫链蒙特卡罗统一路径采样)为例说明这一点。
太极的诞生与使命
太极的核心使命是构建一套基础设施(Infrastructure),使得仿真能够更容易开发、运行更快、更省内存,并与周围生态(Python、PyTorch)友好集成。
一个标志性成就是在单块 3090 GPU(24GB 显存)上运行10亿(\(10^9\))粒子的仿真。为实现这一点,每个粒子占用的存储空间不能超过24字节。他在编译器层面做了极端的量化优化——一个粒子的 XYZ 坐标用一个32位整数表示(X 用11位,Y 用11位,Z 用10位),这就是 QuantTaichi 的工作。
太极为什么需要自建编译器
关键在于 CUDA 虽然让 C++ 程序员能编写 GPU 程序,但 Python 生态、LLVM 编译器基础设施、MPM 等仿真方法的成熟,创造了在更高层次构建领域专用语言的机会。太极基于 Python 语法,通过自建编译器将高级代码编译为高性能 GPU 程序,用户无需手动处理位操作和内存优化。
在 MIT 独立开发太极的体验被胡渊鸣描述为"很爽"——他同时扮演了四个角色:
| 角色 | 具体工作 |
|---|---|
| 产品经理 | 分析仿真用户需求(因为自己就是用户) |
| 科学家 | 了解前沿技术,将其转化为产品特性 |
| 工程师 | CI/CD、软件架构、C++性能优化、多线程编译、编译缓存 |
| CEO | 整合三个角色的成果,让更多人用上(知乎宣传等) |
"用自己的编程语言去实现自己的程序,然后发现还比 CUDA 好用的时候,我觉得那时候有点牛逼坏了。"——这是太极开发过程中最让他激动的时刻。
99行代码实现冰雪奇缘
太极最广为人知的 demo 是"99行代码实现冰雪奇缘效果"——用极短的 Python 代码实现了材料点法(MPM)驱动的雪花仿真。这个 demo 在社交媒体上获得了巨大关注,也成为了胡渊鸣的标志性标签之一。
然而他对这个标签的态度是复杂的:"我相信你已经对这种标签早就去魅了,并且这样的标签完全不能展示真实的你。"事实上,99行 demo 只是太极能力的冰山一角——它背后是完整的编译器栈、类型系统、自动微分引擎、多后端代码生成器等大量基础设施。
太极的可微编程(Differentiable Programming)
太极的一个关键特性是支持可微编程——即你的仿真程序可以自动求导。这意味着你可以:
- 给定一个目标状态,反向优化仿真参数
- 将 simulator 嵌入到 neural network 的训练循环中
- 用 gradient descent 来优化 robot 的控制策略
DiffTaichi 和 ChainQueen 两篇论文正是基于这个特性,将 simulation 和 robotics 结合起来。这个方向是清华学长家俊建议的——"你要不试试把你的 simulator 搞成 differentiable?"
胡渊鸣回忆说,只需在太极代码中加上一两行代码,就能把普通仿真变成可微仿真——"我也觉得只有自己造了一个编译器才能做到这个事情。"这种编译器级别的抽象能力,是手写 CUDA 代码无法企及的。
太极 2.0 的愿景
访谈中透露,太极 2.0 的规划正在进行中。目标是让太极在大模型时代仍有广泛应用,影响力达到1.0的50倍以上。具体方向可能包括:
- 支持 Transformer 优化:如果当初太极更早向这个方向发展,"可能现在太极是 Triton 的位置"
- Hybrid Simulator:将 simulation 和 neural network 真正结合,既有物理仿真部分又有 data-driven 部分
- LLM 生态支持:在 LLM 领域找到太极的应用场景
一个有趣的数据:太极的 GitHub Stars 数目超过了 NVIDIA Warp、Triton、Mojo 等项目——"太极还是很 popular 的,只不过没有找到一个大的领域去施展。"
开源哲学的三次演变
胡渊鸣对开源的看法经历了三个阶段:
第一阶段(MIT 博士期间):开源大法好。当时很多 Graphics 论文没有开源代码,他坚持让太极的所有实验结果都可通过一行命令复现。
第二阶段(创业早期):开源商业化九死一生。"你都把最好的东西给人家了,那怎么赚钱呢?"太极投入减少,团队调去做 Meshy。
第三阶段(当前):开源是战略性的 marketing 工具。
开源作为技术营销
"开源确实不挣钱,但一个好的开源项目能帮你吸引到最好的人才和最好的客户——它变成了一个 marketing 手段。"在游戏行业,研发和市场推广投入往往是1:1甚至更多。通过开源做技术营销,对于不擅长传统营销的技术创始人来说是最佳路径。但这需要"非常 strategic"——必须想到一个好的商业化方式与之互补。
他坦言,开源是他作为 Founder 理想中不可甩掉的部分——"迟早你可能又会走到开源这条路上"。目前团队正在规划太极 2.0,定位为 "infrastructure supporting Graphics and AI"。
本章小结
太极项目体现了胡渊鸣"从底层开始造轮子"的极客精神,也是他从学术走向创业的桥梁。技术上它展示了领域专用编译器的巨大潜力(10亿粒子仿真),方法论上它训练了"产品经理+科学家+工程师+CEO"的全栈能力。开源哲学的三次演变则反映了理想与商业现实之间的平衡。
物理仿真与 AI 的融合
三个世界之间的鸿沟
访谈中有一段关于"三个世界"的精彩讨论:(1)真实的世界;(2)我们肉眼能观测到的世界;(3)我们用物理模型建模出来的世界。
三个世界之间的 Gap
第一个 Gap(真实世界 vs 可观测世界):每个人只能观测到世界极小的一部分,所以每个人的认知都有巨大局限性。这个 gap 的本质是观测能力的有限性。
第二个 Gap(可观测世界 vs 仿真世界):"差了十万八千里"。但原因不同——这个 gap 是因为我们没有足够的 compute 和 data 去建模现实世界。在某些经典场景(如 CFD 与风洞测试的关联性)已经很好了,但"飞机起飞前肯定还要吹风洞,你不能说 CFD 就结束了"。
他对此的感叹充满哲学意味:"挺无奈的。我们作为一个物种也许运行在别人的一个模拟器里面,我们居然还妄想造一个自己的模拟器能够模拟我们自己。"但他同时认为,GPT-4 这样的模型能 mimic 人类大脑的运作——"已经是一个奇迹了"。
Video Model vs. Physical Simulation
"我们为什么还要用太极做 rendering、做 physical simulation?为什么不用 Sora?"——这个问题直指 Graphics 学科在 AI 时代的存在价值。
胡渊鸣的回答很务实:"五年前99行写冰雪奇缘,现在给 Sora 的 prompt 只用写20个单词。有的场景确实革了 Graphics 人的命。但 Graphics 在做的很多事情促成了 Sora 的诞生。"
最终的演变方向是"learning 为主",但 simulator 会以某种形式存活——作为 inductive bias、synthetic data 来源,或 learnable module 的一部分。Neural Graphics(DLSS、NeRF 等)已经在逐步替代传统 ray tracing,而太极 2.0 的定位正是"supporting Graphics and AI"。
Sim-to-Real Gap:仿真的根本挑战
胡渊鸣指出,所有现有 simulator(Isaac、MuJoCo、Drake、PyBullet、Genesis)都面临一个共同问题:sim-to-real gap。
物理定律是准的,但边界条件不是
牛顿第二定律是准的,相对论也是准的。但很多 boundary condition 是不准的——比如摩擦模型,光滑表面和粗糙表面的摩擦机制完全不同,一块玻璃放在湿漉漉的表面上的摩擦又不一样。这些建模全都是不准的。
他认为未来的 simulator 需要变得更加 data-driven,与神经网络结合。这不意味着要用 Transformer 重新学习牛顿第二定律(本来可以用几个 FLOPS 做完的事情,用几十亿 FLOPS 去做没有意义),而是要让 data-driven 方法去弥补那些近似模型无法精确描述的部分,比如材料的 stress-strain curve。
Inductive Bias:物理先验在 AI 中的价值
胡渊鸣特别强调了 inductive bias(归纳偏置)在 AI 系统中的重要性:
3D Inductive Bias 的效率
以 video generation 为例:camera projection 在传统图形学中只需约50个 FLOPS,但如果让 AI 来学习这个映射,可能要加上 billion 级别的参数。所以,camera projection 应该被 hardcode,把模型的容量留给真正需要学习的部分。类似地,video model 中 camera 转360度后看到完全不一样的世界——如果有基本的 3D 表示,至少可以解决 physical persistency 问题。
他总结了一个精辟的平衡原则:
"Simulator 里面需要有更多的 AI,AI 里面也需要更多的 3D inductive bias。要找到一个恰到好处的平衡点——不要越俎代庖,不要低估模型的学习能力,但也不要把所有事情交给 learning。"
Synthetic Data 的局限性
关于 Sergey Levine 在 "The Spork of AGI" 博客中对 simulation 的抵触——认为 simulation 反而是 robotics foundation model 的限制,应该用 real world data——胡渊鸣表示"有道理":
Synthetic Data 不能作为主要数据源
"如果所有 data 都是 synthetic data,或者大部分 data 是 synthetic data,一定不会 work。因为能够 synthesize 的 data 一定 follow 某些 rules,这些 rules 一定是人为思考出来的。现实世界中一亿种情况里,rules 可能只能 cover 一万条。"——但 synthetic data 可以用来 enhance 一个已有模型,而非 build from scratch。
模拟的极限与嵌套宇宙
在讨论"物理仿真的极限"时,胡渊鸣给出了一个令人沉思的回答。如果我们自己的世界就是被模拟出来的,那么模拟器里的模拟器不会比母体模拟器更强。
嵌套模拟的计算复杂度论证
"也许你在我们的世界里面去造一个模拟器,模拟整个世界并使其运行速度比现实时间更快——这有可能是 unlikely 的。除非你只做 small scale 的模拟。这也意味着预测股市可能是很难的,因为股市涉及整个世界所有人都参与其中——你需要模拟的系统和现实世界一样大。但你做一个风洞模拟——这是可以做的。"
这个洞察将小时候"桃树是否在我不看的时候生长"的哲学思考与成年后的计算复杂度理论优雅地连接起来。
LLM 的柏拉图洞穴
被问到"GPT 这样的 LLM 是不是生活在柏拉图所说的洞穴里"时,胡渊鸣的回答出人意料:
"是。因为它的 loss function 就是它的 training data,所做的一切就是 minimize 这个 loss function。但——我们每个人难道不是生活在柏拉图的洞穴里面吗?我们每个人看到的东西可能比 LLM 还要少。只不过 LLM 有时候犯常识性错误,所以你经常笑它。但我们真的就比 LLM 强吗?我觉得不一定。"
他认为 AGI 可以从现有的 text、video、image data 中诞生,不一定需要人类对物理世界的全部认知"内建"进去。关键是给 AGI tool use 能力——让它拥有自己的计算机,能写代码去分析物理现象。"它可以自己发现自己的牛顿定律。"
如果重新做一个 Simulator
如果今天重新做一个 simulator,胡渊鸣会以 learning 为主驱动,而不是牛顿定律为主。他会保留的"底层元素"包括:
- 物体不会凭空消失(physical persistency)
- 两个物体不能占据同一个位置(collision)
- Camera 的 perspective projection
而将所有 physical law(包括弹塑性形变、流体动力学等)全部搞成 data-driven。最终得到的系统既不是传统 simulator,也不是纯 neural network,而是"嵌入了 neural network 的 3D inductive bias"——一种让 neural network 更容易学习的结构化先验。
AGI 需要物理学吗
胡渊鸣认为 AGI "可能不特别需要牛顿定律和拉格朗日方程",但需要 tool use——AGI 需要有自己的计算机,能写 finite element 代码去分析物理现象。
Next Token Prediction 的本质局限
不管 token 信息量多大多小,Transformer 的每个 token 都要花费固定的 compute(\(2 \times\) parameter count / sparsity via MoE)。但有些 token 天然需要比其他 token 更多的 compute——这些额外 compute 不能发生在 LLM 当前范式内部,而是要让 LLM 去操作外部工具。所以 AGI 不需要人类对物理世界的全部认知"内建"进去,它可以"自己发现自己的牛顿定律"。
这个观点有一个重要推论:当前 scaling up Transformer 的方式(增加参数量,让每个 token 的 compute 更多)本质上是在用暴力解决一个架构层面的问题。更聪明的做法可能是——像太极那样——让不同粒度的计算用不同的方式处理。
关于 Robotics 的思考
尽管胡渊鸣的技术背景与 Robotics 高度相关(物理仿真、可微编程、3D 生成),他坦言对 Robotics"兴趣程度没有那么高"。
"我觉得 Robotics 是一个 impact 非常大的事情。可能唯一一个我没有开始做 Robotics 的原因是——我自己今天对它的兴趣程度没有那么高。我相信我只有做自己喜欢的事情才能做好。"
但他也承认 Robotics 与 Meshy 有潜在的交叉点:很多合作伙伴已经在用 Meshy 生成茶杯、碗、桌子等3D资产用于 Robotics 训练。未来如果 Meshy 支持 articulated objects(有关节的物体),这个交叉将更加显著。
他对 Robotics 中 simulation 角色的判断也很有洞见:让 robot 操作桌上的蔬菜和盘子,比飞机上天更难——"因为天上无非就是空气,但当你要更细致地 manipulate 桌上的东西,各种边界条件的不一致会导致 simulation 在现实中非常难落地。"
本章小结
物理仿真正处于从 rule-based 向 data-driven 转型的关键时期。传统仿真的瓶颈不在物理定律本身,而在边界条件的精确建模。未来的方向是保留底层的 3D 先验(作为 inductive bias),让 learning 处理复杂的、难以精确建模的部分。太极 2.0 正朝这个方向演进。
Meshy AI:3D 生成的商业化实践
从 PhD 到创业的抉择
毕业时胡渊鸣面临几个选择:(1)去学校当老师;(2)去大厂工作;(3)创业。
对于去大厂,他的回答斩钉截铁:"我肯定受不了。不是因为大厂轻松不好——而是我受不了有人告诉我该做什么。"在 MIT 期间,导师每周只和他见半小时(COVID期间更短),但给的帮助极大——鼓励、方向指引、介绍厉害的人认识。"但具体技术上面,他是不会告诉我该做什么的。"
技术创始人的"受不了"心理
胡渊鸣的创业动机不是金钱("可能只占5-10%"),而是对自主性的极端需求。这种心理特质在很多成功的技术创始人身上都可以看到——他们无法在既有框架内工作,必须自己定义问题和方向。这是一把双刃剑:它驱动你去做别人不敢做的事,但也意味着你在创业初期会缺少很多"正常公司"应有的结构和经验。
对于学术路线,"主要的问题是学术的眼界不够开阔——没发现还有 GenAI 这么好的东西可以做。"博士做到后来,Graphics 领域在他看来已到瓶颈,不知道在学术界还能做什么。"所以就想:能不能把博士做的事情去做成商业化产品?"
从太极图形到 Meshy 的转型
胡渊鸣在2021年博士毕业后创立太极图形公司,前18--24个月一直在摸索商业化方向。太极支持了更多硬件(AMD GPU、JavaScript backend),也尝试了一些商业化方式,但最终发现只能做外包——帮别人开发 simulator 然后交付,毛利率极低,中国的 2B 市场更是难以为继。
技术创业的商业化陷阱
"当时几个很火的词——元宇宙、开源、infrastructure——你会不由自主地想'我做的事是不是能在这些里面有用处'。这是很难避免的,但当你有更多商业经验后,一些基础的坑就不会再踩了。"——被行业热词牵着走,而非回归第一性原理思考用户真正愿意付费的是什么。
他在这个过程中意识到一个关于自身性格的关键洞察:"我这样性格的 Founder 只能去做标准化的面向 consumer 的产品——因为我很讨厌和大客户打交道。"这决定了 Meshy 的商业模式从一开始就是 subscription + API,而非企业级定制。
关键转折点来自2022年下半年的"第一性原理"思考:
Meshy 的商业逻辑
- ChatGPT 可以生成语言
- Stable Diffusion 可以生成图片
- 大家会去 Sketchfab 等网站花钱购买3D模型
- 但市场上还没有产品能生成3D模型
结论:"如果我们能以接近零的成本生成3D模型——then we are rich。"
这个转型的背后是 Intel DRAM 转型 CPU 的经典故事——Andy Grove 和 Gordon Moore 面对日本半导体的竞争压力,提出"为什么我们不自己把自己开除,走出这个房间再走回来,想想如果是新 CEO 会做什么",最终决定从 DRAM 转型做 CPU,三年痛苦的转型造就了 Intel 后面几十年的辉煌。
胡渊鸣坦言转型有阻力:"也有一些人觉得对这事没兴趣就离开了公司。但坚持做的人现在都觉得这是一个非常正确的决定。"事实上,Meshy 是公司的第三个产品——第一个是太极本身(商业化失败),第二个是另一个尝试(也砍了),最后 all in 做 Meshy。
开始做 Meshy 的技术起点来自太极生态——有人用太极实现了 Gaussian Splatting,有人实现了 NeRF,团队想"原来太极还能做这个事儿,是不是可以朝着生成3D资产的方向推一推"。
创业公司 Pivot 的核心逻辑
"坦率地说在当时 Meshy 就是最好的 Pivot 方向。因为我去做 LLM、2D Diffusion、Text-to-Image、Text-to-Video 这些东西,我不见得做得过其他人。我自己的能力局限性就导致 Meshy 在当时就是我最好的方向。"——认清自己和团队的能力圈边界,选择能力圈内最大的市场机会。
每三到六个月把自己开除一次
"我在做公司的过程中,每三到六个月就要把自己开除一次。你如果想在创业这种很 intense 的环境中活下来,最好就是觉得三个月前的自己是傻逼——这是最好的。如果你不觉得三个月前的自己是傻逼,说明这三个月没有成长。"
8小时上线与四张脸的恐怖游戏
Meshy 的第一个版本8小时就上线了,立刻获得1000个用户。但当时的生成质量极差——贴图方式是将模型前后左右各生成一张贴图贴上,导致角色头部有4张脸。
"我找用户访谈的时候都说:你千万不要跟别人说 Meshy 是胡渊鸣做的。"直到 Meshy-1、Meshy-2 迭代后,他才好意思认领这个产品。
从四张脸到3A游戏原型
最早 Meshy 只能用来做恐怖游戏(因为4张脸),但随着技术不断迭代,现在已有 AA 甚至 AAA 游戏工作室用 Meshy 做原型。"不要低估技术前进的速度"是胡渊鸣在这个过程中学到的最大教训。2023年他说解决了10%,2025年回看,解决了当时想象的约90%,但上限从100%变成了200%,所以实际约50%。
商业模式与市场定位
Meshy 的商业模式和 OpenAI 基本相同:订阅 + API。目前的核心数据:
| 指标 | 数据 |
|---|---|
| 注册用户 | 超过400万 |
| 月网站访问量 | 约250万 |
| 最大客户 | Meta(按客单价) |
| 美国市场占有率 | 约55% |
| 对比竞品 | 约等于第二名+第三名访问量之和 |
| 月营收增长 | 约20% |
| 年营收增长 | 超过10倍 |
在市场定位上,3D 生成是一个中等规模的市场——比 video model 小(避免与大厂正面竞争),但比很多垂直领域大(足以养活创业公司)。消费级市场的潜力同样巨大:美国 3D 打印机每年出货量增长20%,很多买了打印机的人没有模型可打印。
创业公司的市场选择
"如果做的市场规模太大(比如 video model),挑战在于卷不过大厂;如果市场规模很小,又养不活公司。找一个中等规模的市场,可以避免和巨头竞争,也可以让自己有很快的发展。"
胡渊鸣对 Meshy 的更远愿景不止于3D模型:"本质上我们在做的是用 multimodal AI 给大家带来乐趣——AI for fun。"如果能解决这个更大的命题,Meshy 的市场空间将远超当前的3D领域。他的目标是做出一个像 NVIDIA 一样的公司。
为什么是 Graphics 团队做成了这件事
一个反直觉的事实是:Meshy 团队之前几乎没有人训练过大模型——他们是一帮 Graphics 出身的人。
Graphics 人的跨领域优势
"搞 Graphics 的人有一个很大的特点——非常硬核,学啥都会。如果你每天玩的是欧拉-拉格朗日方程,今天让你学个 Diffusion,那太容易了。你整天玩的是 MCMC,今天解个 SDE,这都是相通的。"这种深厚的数学和工程功底,使得 Graphics 背景的人在 AI 时代如鱼得水。
Meshy 的技术演进:从 NeRF 到 3D Native Generation
Meshy 的技术路线经历了显著的演进。最早用的技术"非常破"——先用 2D diffusion 从文本生成前后左右四张图片,再贴到3D模型上(这就是"四张脸恐怖游戏"的来源)。但随着技术迭代,现在已发展到 3D native generation。
| 版本 | 核心技术 | 质量等级 | 应用场景 |
|---|---|---|---|
| 早期 | 2D多视角贴图 | 极差(四张脸) | 恐怖游戏 |
| Meshy 1 | NeRF + 改进贴图 | 可用 | 独立游戏原型 |
| Meshy 2 | 3D Native + Diffusion | 较好 | AA游戏原型 |
| 当前 | 多模态 AI pipeline | 良好 | 部分AAA游戏 |
| 未来方向 | Articulated objects | — | Robotics训练 |
他坦言Meshy尚未达到让游戏工作室"完全满意"的水平:"坦率来说现在 AI 生产3D模型还没有真正能够达到 studio 觉得'哇我好满意'的状态,他们往往还要用 ZBrush 再修一修。"但进步速度极快——"不要低估技术前进的速度"是他在这个过程中反复验证的教训。
他分享了一个关键的用户洞察——以前做太极商业化失败时,和大量用户聊天发现:"他们都说'我不会为你这个软件付费的,但你如果能把这个里面的模型都卖给我,我会为它付费。'"这个洞察直接催生了 Meshy 的商业模式。
Meshy 的竞争策略:与 Cursor 的对比反思
当被问到"是不是一个好 CEO"时,胡渊鸣给出了一个坦诚的对比分析:
好赛道 vs 好执行
"你说 Meshy 增长很快?和 Cursor、Lovable 比,根本算不上快。他们一个 AI coding 产品就能做到 200M ARR。我们也很 hardworking,他们也很 hardworking,但他们的赛道回报更高。"这引出了一个深刻的反思——作为 CEO,选择赛道可能比执行更重要。"但凭运气得来的东西,迟早要凭实力还回去——Cursor 现在快也是一时的,关键看下个阶段。"
他还引用了一个令人警醒的对比:宇树科技(中国领先的人形机器人制造商)营收十多亿人民币,但只是泡泡马特(潮玩品牌)的十分之一。"这说明不同赛道的回报差异巨大——Andrej Karpathy 说得对,一个十倍收益的事往往只有两倍难。"
但他也辩证地看待这个问题:"你在牌桌上,你有好的团队、有稳步增长的业务、有做新事情的机会——永远有做出像 NVIDIA 这样公司的可能性,只要你有这个基因。"
AI 时代的机遇与挑战
被问到"AI 时代做 Meshy 有什么机遇和挑战"时,胡渊鸣从技术和商业两个层面回答:
机遇:
- 上下游产业逐渐成熟——Text-to-Image(Black Forest Lab)、Language Generation(ChatGPT、Claude)、Video(Gemini/Veo)——很多事情不需要自己 build,接 API 就行
- Diffusion、RF、DiT、MoE 等技术走向成熟,使得做3D生成模型变得可能
挑战:
- 时代节奏极快,必须非常努力地更新产品才能保持好的位置
- 可能被新技术颠覆——但对于适应力强的公司来说,"市场空间是无限大的,因为你总是可以去解决新的问题"
他的工作强度"不太适合在节目里说——要不然大家可能不敢创业了"。但每天起来都觉得"good enough,还可以元气满满地迎接新挑战"。被问到"PhD时候累还是现在累",他毫不犹豫:"当然现在累。PhD 的时候可爽了——我只要把自己照顾好就行了。但现在整个公司要赢,大家得有饭吃。"
游戏行业的困境与 Meshy 的机遇
胡渊鸣与大量游戏公司打交道后,对游戏行业的现状有深刻认知。整个行业近年处于收缩状态(约3000亿美金市场),面临多重挑战:
- 注意力竞争:TikTok 等短视频平台抢走了用户原来玩游戏的时间
- 玩法瓶颈:自 PUBG(吃鸡)以来,长时间没有突破性的新玩法出现
- 制作成本螺旋:GTA 需要10年制作周期,成本越来越高,但游戏定价受限(一个20小时的游戏只能卖三四十美元,而同样价格看一场电影只有2-3小时)
- 3D资产成本占比高:3A游戏制作成本的50%都在3D Asset上
"所以他们非常想降本增效,需要 Meshy 这样的东西。"
对于3D生成的消费级市场,他举了一个生动的例子:他的三代家庭(父母、自己、女朋友)都在用 LLM,但他无法说服父母用 Meshy——"3D 是一个相对小众的市场,你在微信上发一个 OBJ 文件是打不开的。"但如果能做到高质量的人像3D复原(比如把合照变成可3D打印的模型),"所有人都是 Meshy 的用户"。
Startup 的市场选择逻辑
"市场太大(如 video model),你卷不过大厂;市场太小,养不活公司。找中等规模的市场——大厂不屑于做,但足以支撑一个创业公司生根发展。" Meshy 恰好在这个甜蜜点上:3D 生成式 AI 市场足够大,能让公司实现上市规模,但不至于引来所有大厂的全力竞争。
从太极到 Meshy:Graphics 团队的跨界
一个反直觉的事实是:Meshy 团队之前几乎没有人训练过大模型——他们是一帮 Graphics 出身的人,且 Meshy 的技术栈与太极几乎没有直接关联。这相当于从零开始做一个新领域。
Graphics 人的跨领域优势
"搞 Graphics 的人有一个很大的特点——非常硬核,学啥都会。如果你每天玩的是欧拉-拉格朗日方程,今天让你学个 Diffusion,那太容易了。你整天玩的是 MCMC,今天解个 SDE,这都是相通的。"这种深厚的数学和工程功底,使得 Graphics 背景的人在 AI 时代如鱼得水。
当被问到"不担心团队不适合做 text-to-3D 吗"时,他的回答很坦率:"我没有任何这个担心,因为当时没有人在做这个事情。"这是 Meshy 的 first-mover advantage——在非共识时入场,把学习曲线转化为竞争壁垒。
本章小结
Meshy 的成功验证了几个关键判断:(1)在非共识时入场——当时没人做 3D 生成,后来变成了第一个上线的公共产品;(2)技术基因团队的适应力——Graphics 出身的团队快速学习 AI 技术;(3)商业直觉——用户愿意为3D模型付费,那就以接近零成本生成来满足需求。从"做失败了就当没做过"到市场第一名,核心在于极快的迭代速度和对用户需求的精准把握。
CEO 的自我进化:勇气与智慧
人才观:Hungry, Humble, Smart, Clarity
胡渊鸣面试每一个 Meshy 求职者时,最看重的四个特质:
胡渊鸣的人才四维模型
- Hungry:还没有证明自己,特别想成为更好的自己,对做出 impact 有"饥渴感"。已经功成名就的人可能不愿意 take risk。
- Humble:能意识到自己还有很多没做好的地方,有 growth mindset,不断改变和否定自己。"如果一个人不 humble,就算现在这个时间点再厉害,未来也不会向前进。"
- Smart:最好的 problem solver——在资源有限的情况下想尽一切办法解决问题(比如用更低精度的浮点数训练、找到更好的 optimizer)。
- Clarity:表达清楚。"当你发现一个人说的话你完全听不懂的时候,十有八九并不是你有问题,而是他没把事情想清楚。"表达不清楚往往不是口才问题,而是思维不清晰。
他坦言自己也经常犯这四方面的错误。其中最大的一个转变是关于 Clarity:从 "说很多但只有10%有效" 到意识到 "听比说重要得多"。关于 Smart,最大的错误是 "be smart about the solution, but ignore being smart about strategy"——花太多时间想 how,不够时间想 why。
从 Intern 到 CEO 的认知鸿沟
胡渊鸣在做 CEO 之前的全部职业经历就是在 NVIDIA、Adobe、Microsoft 当过实习生。"我最 professional 的经历就是当过 intern——这就是我当 CEO 之前的全部职场认知。"
最初的 struggle 不是"怎么把 CEO 做好",而是"一个正常公司应该是什么样——我都不知道"。加上太极的融资很顺利,没有"下个月发不出工资"的生存压力,这反而 delay 了他面对残酷事实的时间——"融资顺利其实是把双刃剑,它让你不够痛,就不够 urgent 去改变"。
PhD 不是 CEO 的充分条件
"PhD 能教你 humble、work hard、presentation skills、前沿技术。但市场、用户、产品量产——这些 PhD 接触不到。"他发现比自己大20岁的大厂高管出来创业,"好像做得还没有我们好"——说明这不是经验的问题,而是学习速度和 humble 程度的问题。甚至李想(理想汽车)高中都没读完也做得很好——"PhD 不是必要条件,格局才是。"
他自评"so far 是一个勉勉强强及格的 CEO",需要提升的地方包括:更好地 delegate 工作、管理时间、在某些事情上更果断、学得更快、花更多时间对外而不是对内、看更多的书、更长时间反思、思考公司愿景。
赢的文化与输的文化
输的文化特征
- 内耗:部门之间互相消耗而非合作
- 甩锅:出了问题不复盘、不反思
- 不切实际:不是目标高(目标依然可以高),而是不面对事实——把不好粉饰成好
- 追求和谐:团队不能批评 CEO,不能公开指出问题
这些都会导致公司最终"输"。
相反,Meshy 的文化基石是"Respect Facts"(尊重事实)。胡渊鸣举了一个具体案例:他前几天刚被两位同事"拉到走廊里"批评管理上的问题。"我听到时心头一紧,但我会听他说完,然后想自己是不是真的没做好——后来发现确实有没做好的地方。"
他认为能招到这样的人、有这样的氛围,本身就是一种幸运——"他一定是对公司有很强的 ownership,把自己当 CEO 一样看,才会愿意跟你讲这些。"
在创新驱动的公司中,CEO 不一定知道所有事情——这是与制造业公司的本质区别。"你在创新驱动的公司就要接受,CEO 他不一定知道所有的事情。"
Meshy 的工作体验
三四年的老员工评价 Meshy 是"工作十几年以来觉得最好的公司"。原因包括:能够快速成长、有一个能听他们诉求的 leader、在一个快速发展的业务中扮演重要角色、接触最前沿科技(以前在大厂可能只写 shader,在 Meshy 能用512块 GPU 训练模型)。
"大家在这过程中每个人都变成了更好的自己。"——这与他的 CEO 目标高度一致:让 Meshy 成为"最优秀的人觉得是很好的工作地方"。
最深刻的认知转变:不再追求所有人喜欢
胡渊鸣称这是他作为 CEO 最大的认知崩溃时刻:
追求被所有人喜欢是自私行为
"如果你工作的目标是让所有人都喜欢你自己,那你最终会被所有人讨厌。"因为CEO必须做 tough decisions——砍掉大家喜欢的项目、请走没有贡献的但人缘好的同事、在用户群体A和B之间做选择(做了A喜欢的B就骂你)。"追求被所有人喜欢是把私事排在公事前面——你坐在CEO的位置上,就要为整个公司的利益负责,而不是让自己被所有人都喜欢。"
他引用了李想(理想汽车创始人)对 Elon Musk 的评价:"评价一个 CEO 不是看他多圆滑,而是看他在真正的危难时刻能不能一眼看到本质。"
这个转变也延伸到管理层面。他发现新任管理者普遍存在同样的问题:因为自己作为 IC(individual contributor)时被善待,就以同样方式对待下属,不敢提出更高标准。解决方法是给他们讲"血泪史"——"公司今天有这个问题,就是因为我半年前优柔寡断,想让所有人都喜欢我。"
创业公司的生存法则
什么是好生意?胡渊鸣总结了三个维度:
- 市场大——值不值得做的问题
- 非共识——还有没有你的机会的问题(timing 非常重要)
- 竞争优势——你自己是不是能做成的问题
技术飞轮(Flywheel)
好的技术 \(\rightarrow\) 好的产品 \(\rightarrow\) 好的 revenue \(\rightarrow\) 吸引好的人 \(\rightarrow\) 做出好的技术。如果技术不能商业化,就变成"一场烟花秀,放完就没有了"。Meshy 的飞轮已经转起来——月营收增长20%,用户400万,技术不断迭代。
关于选择方向,他引用了 Andrej Karpathy 的话:"一个十倍收益的事往往只有两倍难。"方向选择远比努力程度重要——Cursor 和 Meshy 团队一样 hardworking,但 Cursor 的赛道回报更高。不过他也辩证地看待:"凭运气得来的东西,迟早要凭实力还回去。Cursor 现在发展快是一时的,下一个阶段能不能做得更大,还要看 CEO 能不能不断接受新挑战。"
Respect Facts:尊重事实的文化基石
创业中最残酷的事实
"世界上绝大多数努力没有任何回报。你做的事越大、风险越大,往往付出99分的努力一分回报也没有。但你必须做出这个努力,因为你不知道100分里哪一分是有用的。'天道酬勤'、'一分耕耘一分收获'——这些完全是骗人的。"
在 Meshy 的评估实践中,他们要求盲测——随机展示新旧版本,不告知是哪个,由第三方评判。"很多时候你折腾了很多,发现旧版本更好。"如果不客观面对这个事实,团队就会陷入自我欺骗。
Bias for Action 与以终为始
胡渊鸣自称"非常 bias for action"——一个事情想做就立马去做,晚上不睡觉也去做。经常在八字还没一撇的时候就在想未来的蓝图——"有点像 Elon Musk 造火箭,发动机还没造好就想着在火星上吃什么。"
但这不是盲目的行动主义:他会"以终为始"地思考——为了实现最终目标,现在应该做什么,然后倒推规划。太极和 Meshy 都是用这种方式倒推出来的。
Jensen Huang 再来一次不会创立 NVIDIA 吗?
"我觉得这是凡尔赛。你有4万亿美金的公司,说什么都可以,你说什么都是对的,你就是爸爸。"胡渊鸣话锋一转:"我还是会选择再来。虽然每天都很 suffer,但在这过程中能学到很多,变成更好的自己。看到学术界小食堂以外更广阔的视野。"
"和平年代没有什么比创业更能锻炼一个人了。"——这是他对创业的最终评价。不能在被保护的环境中(学校、大厂)指望学到太多——除非你有一个特别好的 mentor。创业是最残酷但也最高效的成长方式。
本章小结
CEO 的自我进化是一个持续"杀死过去自己"的过程。核心转变包括:从追求所有人喜欢到追求事业成功;从 smart about solution 到 smart about strategy;从埋头苦干到打开眼界、多交流。能赢的文化特征是直面现实、接受批评、追求极致;会输的文化特征是内耗、甩锅、粉饰太平。
勇气与智慧:Brain, Guts, Heart, Taste
Jensen Huang 的三维度与胡渊鸣的第四维度
访谈最后一个章节的标题"勇气与智慧"来自胡渊鸣知乎文章的标题。他提出了评价人才的四个关键词:Brain、Guts、Heart、Taste——前三个来自 Jensen Huang 在 Stanford 演讲中的回答,第四个是他自己加的。
Brain / Guts / Heart / Taste
- Brain(头脑):最强的 problem solver。
- Guts(勇气):能在信息不完全的时候快速采取行动,能接受失败的风险,能从失败中学习。
- Heart(心灵):从内心深处是善良的——但这不意味着做最 nice 的人。"有时候给团队提出高标准,反而是最大的善意,因为你不提出标准团队会失败。"底层不能有害人之心,应该是一个有原则、诚实的人。
- Taste(品味):胡渊鸣自己加的维度。招聘时他会问"你玩什么游戏?周末干什么?看什么书?"——志趣相投的人才能长期密切合作。
关于 Taste,他透露最近在看雷军的书。他觉得雷军是非常值得学习的创业者——当年在中关村做"劳模"给微软做 Office 替代品(盘古套件),完全错过了互联网时代,后来总结出"台风口猪都能飞起来"的飞猪理论。这和他自己讲的"方向选择远比努力重要"是同一个道理。
阶段一与阶段二:从解题者到出题者
胡渊鸣提出了一个深刻的人生发展框架——阶段一与阶段二:
| 维度 | 阶段一 | 阶段二 |
|---|---|---|
| 问题来源 | 别人给你出问题 | 你自己给自己出问题 |
| 目标清晰度 | 有明确目标 | 没有明确目标 |
| 责任范围 | 把自己的事做好 | 想整个团队做什么 |
| 核心技能 | 服从指挥、卷效率、磨练具体技能 | 定义方向、面对不确定性 |
| 成功标准 | 完成任务 | 创造价值 |
这个框架适用于人生的每一次跃迁:本科生到研究生、IC(个人贡献者)到 Manager、公司职员到创业者。
阶段一越成功,阶段二可能越 suffer
"阶段一的技能和阶段二需要的完全不一样。阶段一可能是服从指挥、卷效率、磨练具体技能。但到阶段二,没有人指挥你了,效率无从谈起——因为连效率的 metric 都没有定义。很多阶段一很成功的人到了阶段二会非常不适应——就跟打 boss 一样,一个血条打完了,boss 变形了打第二个血条,你还用第一阶段的方式去打,很快就挂了。"
对 PhD 学生的具体建议:
- 阶段一(前3-4篇论文):老老实实把 paper 发出去,"阶段一就是卷执行"。通过大量发论文获得足够信息和反馈。
- 阶段二(有了基础后):开始想 why——"这几篇 paper 做得怎么样?多少人引用?是否成体系?有没有破圈?"——从"灌水"转向"做有 impact 的工作"。
判断一个人是否能成为优秀的阶段二 impact maker 的标准:看他能不能承认自己其实是傻逼——尊重事实,错了就认错,不断提高自己,有一个好的 role model,即使这个 role model 离自己很远。
Explore vs. Exploit:长期愿景与短期执行
胡渊鸣将大约20%的时间用于思考未来。他强调 vision 不是一次性的——"可能更好的词是 visioning,你每时每刻都要想着未来到底是什么样的。"
他的未来愿景围绕 "AI for fun":
AI for Fun:后 AGI 时代的终极产品
"AGI 来了以后所有人都要失去工作。一个更好的世界就是大家还能开开心心地活着。如果我们能用生成式 AI 的技术,给大家创造一种 immersive experience,让每个人有限的时间通过生成式 AI 无限丰富——你可以回到过去、体验不同人生——我觉得这 ultimately 就是世界所需要的最终极的技术之一。"
人生是十件大事
胡渊鸣有一个独特的人生规划框架:假设从20岁开始做事,到70岁退休,中间50年。如果每件大事需要5年,可以做10件事。其中必然有一半失败——"如果10件全成了,说明你做的事风险都很小,不是真正创新。"
目前他给自己的进度评分是"0.5 + 0.5":太极做到了现在是0.5,Meshy 过了 PMF 是0.5。把太极2.0做好是下一个0.5,把 Meshy 搞到上市是另一个0.5。上市之后再去做"下一个1"。
对失败的理解
真正的失败是什么
"失败了又能怎么样?我会死吗?不会。只要我还活着,我就没有失败。任何失败只是暂时的。真正的失败是做了一两次尝试后,不愿意再去创新了——一朝被蛇咬,十年怕井绳,老老实实去做保守的事情。创新10个里面成1个就不错了,失败是非常正常的。"
给年轻人的建议
对想读博的人:争取在过程中找到自己真正热爱的事情。"我看了太多人读博只是为了一个学位,但最后也不喜欢这个事。你找到热爱的东西不是通过读博找到的——我在读博之前就已经实现了几十篇 SIGGRAPH 论文了,所以我知道我会很喜欢。"
对想创业的人:
- Get ready:不是想清楚做什么,而是具备失败的承受能力——父母身体健康、家庭稳定、能24小时想着公司。
- Take action:经验没有那么重要,很多事情可以快速试错学习。"失败就失败了,那怎么样?"
- 他自己当时的心态是:"PhD 三年半毕业,就算浪费两年相当于五年半毕业,能怎么样?"
CEO 是否还需要写代码
胡渊鸣目前仍保持每周几小时的代码量(约10%时间),主要是帮团队 debug、review 代码。他引用了 AMD CEO Lisa Su 的话:"她比 MBA 最大的强项就是 actually understand 技术怎么工作。"
CEO 不写代码的危险
"一个 CEO 如果不写代码,很容易飘——会觉得这是容易解决的问题。但实际上你去每天看看大家解决的一些'操蛋的问题',你就会发现这里面还是挺复杂的。一个好的 Founder 一定是 hands-on 的——雷军、Jensen Huang、Elon Musk 都是如此。不一定是写代码,可以是设计产品、亲自跟供应商谈、对技术有深刻理解。"
时间胶囊:一个词
访谈最后,主持人请胡渊鸣给2025年留一个时间胶囊。他只说了一个词:勇气。
"希望所有看到这个 Podcast 的人都能具备勇气。"
如果不创业了会做什么?他说会写书——把 Games201 课程做一个"高清重制版",写一本关于 Simulation + Neural Network 的 hybrid simulator 的教程。"当年讲得太仓促了,每天早上8点讲到9点,然后再去 NVIDIA 实习。"
Meshy 的全球化布局与招聘
Meshy 是一个 globally distributed 的公司——胡渊鸣本人在硅谷,团队分布在北京、上海、深圳和世界其他地方。公司正从 work-from-home 模式逐渐转向混合办公——每周至少4天到 office(中国 office 周三居家),因为"见面讨论效率更高"。
在招聘方面,Meshy 当前重点招聘 AI Researcher、Machine Learning Engineer 和 Compiler Engineer(为太极2.0储备)。实习生为全球统一薪资(global pay),最高年薪100万人民币或14万美元,CEO 亲自参与实习生的产品和科研指导。
这种"CEO 亲自带实习生"的做法反映了胡渊鸣对 hands-on 的坚持——他认为这是技术基因公司的核心竞争力:如果 CEO 不理解技术细节,其他人为什么要为你工作?
本章小结
这一章节集中展现了胡渊鸣的人生哲学内核:Brain/Guts/Heart/Taste 四维人才观超越了传统的"聪明+努力"框架;阶段一到阶段二的跃迁模型解释了为什么很多优秀个人贡献者做不好管理者;对失败的重新定义("只要还活着就没失败")提供了持续创新的心理基础。而他给世界留下的一个词——勇气——既是对自身历程的总结,也是对后来者的期许。
总结与延伸
核心思想图谱
胡渊鸣的思维方式可以用几个核心信念来概括:
关于世界观:这个世界很可能是一个模拟——普朗克常数是浮点精度,光速是计算资源限制。作为被模拟的一员,我们无法从内部证伪这个假说,但这种视角深刻影响了他对仿真、AI 和真实世界关系的理解。
关于技术:物理定律是准的,但边界条件不是。未来的仿真将以 learning 为主、物理先验为辅。3D inductive bias 是连接 simulation 和 neural network 的桥梁。不要低估技术前进的速度。
关于创业:选对方向比努力重要十倍。技术必须能商业化才有持续性。开源可以是战略武器,但需要与商业化互补。创业公司要找中等规模、非共识的市场。
关于个人成长:99%是运气(包括能努力本身)。只做自己 enjoy 的事情。每三个月把过去的自己否定掉。多花时间想 what 和 why,而不只是 how。不要追求所有人喜欢你。
对不同读者的启示
对科研工作者:先花95%的时间想什么问题是重要的问题,再花5%的时间去解决(引自爱因斯坦)。发论文之前,先问自己"这个工作重要吗?"——这也是胡渊鸣面试每个 Meshy 求职者时会问的问题。不要把自己关在办公室里,把门开着,多听其他领域的人在做什么。阶段一该卷就卷,但有了3-4篇顶会论文后,必须切换到阶段二思维——不是发更多论文,而是做更有 impact 的工作。
对创业者:商业化是第一性原理——技术不能商业化就是"烟花秀"。性格决定商业模式——内向型创始人做标准化消费级产品(subscription + API),避免做需要大量客户关系维护的外包。Pivot 不可怕,可怕的是没有 pivot 的勇气。面对事实、尊重数据,不要被"天道酬勤"的鸡汤欺骗。好生意的三要素:市场大、非共识(timing)、有竞争优势。选方向比努力重要十倍。
对管理者:好的 leader 不一定被所有人喜欢,但应该被所有人服气。新任管理者最大的坎是敢于对昔日同级提出更高标准。公司文化为"赢"服务——内耗、甩锅、追求和谐都是"会输的文化"。CEO 最重要的事:40%招聘、30%思考未来战略、30%参与日常业务。保持 hands-on——不写代码的 CEO 容易"飘"。
对所有人:
- 找到自己真正 enjoy 的事情,越早越好
- 99%是运气,保持谦逊
- 每三个月审视一次自己——如果不觉得三个月前的自己是傻逼,说明没有成长
- 不要追求所有人都喜欢你——把精力放在做正确的事情上
- 真正的失败不是项目做砸了,而是不敢再尝试了
- 要有勇气——"希望所有看到这个 Podcast 的人都能具备勇气"
胡渊鸣语录精选
以下是访谈中最具启发性的原话摘录:
| 主题 | 原话 |
|---|---|
| 自我定义 | "我是一个被自己的兴趣和使命感驱动着去做事的人。" |
| 运气 | "99%都是运气。甚至你能努力也是运气的一部分。" |
| 创业成长 | "每三到六个月就要把自己开除一次。最好就是觉得三个月前的自己是傻逼。" |
| CEO 觉悟 | "如果你工作的目标是让所有人都喜欢你,那你最终会被所有人讨厌。" |
| 开源价值 | "开源确实不挣钱,但它能帮你吸引最好的人才和客户。" |
| 努力与回报 | "世界上绝大多数努力没有任何回报。天道酬勤完全是骗人的。" |
| 失败观 | "只要我还活着,我就没有失败。真正的失败是不愿意再去创新。" |
| 创业锻炼 | "和平年代没有什么比创业更能锻炼一个人了。" |
| 模拟假说 | "也许整个世界就是被一个更高级文明闲着无聊写的程序来模拟的。" |
| AI 与物理 | "Simulator 里面需要更多 AI,AI 里面也需要更多 3D inductive bias。" |
拓展阅读
- 太极编程语言:https://github.com/taichi-dev/taichi——GitHub Stars 超过 NVIDIA Warp、Triton、Mojo
- Meshy AI:https://www.meshy.ai/——当前市场占有率第一的3D生成平台
- 胡渊鸣知乎文章:关于"如果重读PhD"的反思,以及"不要只做 SIGGRAPH 里的小鱼"的论述
- Andy Grove:《只有偏执狂才能生存》(Only the Paranoid Survive)——Intel 从 DRAM 转型 CPU 的决策过程
- Richard Hamming:You and Your Research——关于"把门开着"的经典演讲
- Sergey Levine:The Spork of AGI——关于 simulation 在 robotics 中的角色与局限
- Andrej Karpathy:关于"十倍收益往往只有两倍难"的观点
- Games201:胡渊鸣在 COVID 期间开设的物理仿真课程(中文),他计划未来推出"高清重制版"
- DiffTaichi (ICLR 2020):太极可微编程的标志性论文,将 simulation 和 robotics 结合
- ChainQueen:太极在可微仿真领域的早期工作
- QuantTaichi:实现单GPU 10亿粒子仿真的量化优化工作
- 雷军:《小米创业思考》——胡渊鸣推荐的创业参考,"飞猪理论"与方向选择的重要性