Ep106 Puptr04Av5G
导读:从概念火热回到生产力
本节先建立整期的阅读方式。王鹤既是北京大学助理教授,也是银河通用创始人兼 CTO;他的叙述同时覆盖学术史、技术路线、创业选择和行业伦理。相比只讨论“机器人是否会很快进入家庭”,这期更重要的问题是:具身智能为什么从计算机视觉的边缘方向变成资本宠儿,为什么语言不是智能的唯一入口,为什么 VLM/VLA 数据比 LLM 数据更稀缺,以及为什么产业最终要用生产力而不是 demo 来证明自己。
这期与 EP109 谢晨访谈形成互补。EP109 从仿真和合成数据基础设施讲“数据怎么造”;EP106 从学术流派、视觉-行动闭环和公司落地逻辑讲“为什么需要这类数据、哪些商业叙事会伤害行业”。两期合起来,能把具身智能从论文概念、模型路线、数据 recipe、硬件约束和真实场景 ROI 串成一条完整链路。
本期核心命题
具身智能不是“把大模型塞进机器人”这么简单。它首先要求感知、行动和环境反馈形成闭环;其次要求硬件、数据、模型和场景螺旋上升;最终要用可规模化生产力证明自己,而不是用融资额、遥操作 demo 或空泛通用机器人叙事证明自己。
视觉策略说明
本视频是固定访谈画面,没有 slides、白板或产品演示。正文只使用封面作为来源识别,正文图像全部为自制概念图,用来解释语言与智能、具身智能学术谱系、Perception-Action Loop、数据 recipe、生产力即产品和资本乱象。
本章小结
EP106 的主线是:具身智能从视觉学术边缘走向产业中心,但真正的判据不是故事多热,而是能不能把感知-行动闭环、数据飞轮和商业生产力同时跑起来。
语言不是智能本质,而是一次跃变
本章从最容易混淆的概念讲起。访谈里王鹤对智能的定义接近“视情况对环境做出反应的能力”。这个定义故意不把语言放在中心,因为许多生物没有高阶语言,也能在环境中展现智能;视觉、触觉、声音和本体感觉都可以成为智能体感知世界的 sensor。语言的重要性在于,它让人类能够压缩经验、传播知识、形成抽象概念和协作学习,因此是一次跃变,而不是智能的唯一来源。
这个判断直接影响具身智能路线。如果把智能等同于语言,就会倾向于认为 LLM 已经解决了大部分问题;如果把智能理解为环境反应能力,就会意识到机器人必须回到感知、动作和反馈。语言模型可以提供常识和任务拆解,但机器人必须在物理世界里行动,失败会改变环境和成本,这就要求另一套数据与评估方式。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{language-intelligence-jump.png}
\caption{语言不是智能本质:语言是人类智能的一次跃变,而不是智能的唯一入口。自制概念图,依据 00:05:58--00:25:08 对谈内容整理。}
\end{figure}
读图:语言增强智能,但不能替代身体
左侧的 intelligence 强调环境、反应和反馈;右侧 language 强调压缩、传播和协作。读这张图时不要把两边看成对立,而要看成层级关系:身体和感知提供环境接触,语言让经验跨个体传播。具身智能的问题在于,只有语言侧强还不够,物理侧也必须闭环。
视觉是强 sensor,不是完整智能
本节进一步区分视觉和智能。视觉是一种非常强的 sensor,比很多感知模态更早出现在高级动物智能演化中;但纯视觉识别往往是 passive perception,即给一张图判断类别、分割区域或估计位置。识别结束后,环境不会因为你说“这是猫”而变化,也不会给出下一步反馈。这就是互联网视觉任务与具身智能任务的差别。
王鹤指出,计算机视觉领域过去依靠 ImageNet、人脸识别、语义分割等任务积累了巨大能力,但这些任务多是互联网数据与人工标注驱动。卷到一定阶段后,研究者开始寻找下一步:让视觉主动起来,让 agent 采取行动,让行动改变观测,再让新的观测指导下一步。这就引出了 Perception-Action Loop。
不要把识别能力直接等同于具身能力
能识别杯子、椅子和房间,不等于能移动到椅子旁、抓住杯子、打开柜门或完成整理货架。具身智能需要动作和环境反馈,而不是只在静态图片上判断标签。
本章小结
语言让人类智能发生跃迁,但具身智能不能只靠语言。机器人需要把视觉、动作和环境反馈连成闭环,这也是计算机视觉研究转向具身智能的核心动力。
具身智能的学术边缘史
上一章说明语言和视觉的边界,本章进入学术史。王鹤强调,“具身智能”和“机器人”最初并不是同一拨学者的同一套叙事。具身智能更多起源于计算机视觉研究者对下一阶段问题的寻找:从 passive perception 走向能行动、能改变观察、能闭环学习的智能体。机器人传统学者则长期关注控制、机械结构、优化、工业场景和具体硬件。
这个区别解释了为什么具身智能早期最重要的任务不是灵巧操作,而是导航。导航让视觉研究者保持在相对熟悉的舒适区:agent 移动自身位置,摄像头看到新画面,环境本身不必被改动。它已经具备感知-动作循环,却比抓取、开门、接触和力控更容易标准化。因此 Object Goal Navigation、Point Goal Navigation、Habitat 等任务和平台成为早期叙事中心。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{embodied-ai-origin.png}
\caption{具身智能学术边缘史:从视觉、导航、感知和动作循环走向主流。自制概念图,依据 00:25:08--00:41:15 对谈内容整理。}
\end{figure}
读图:学术流派不是从“机器人产业”自然长出来的
图中从 Vision 到 Navigation,再到 Perception 和 Action,说明具身智能最早是视觉研究者对“下一代视觉任务”的扩展。它后来吸纳 robot learning、抓取、强化学习和大模型,但核心叙事最早是:视觉不能只被动识别,而要进入行动闭环。
Perception-Action Loop
本节把具身智能的底层范式讲清楚。Perception-Action Loop 是“先通过感知决定行动,行动改变环境或自身位置,新的感知再指导下一步”。导航是最简单例子:机器人往前走,坐标和相机视角改变,于是看到新的环境。操作任务更复杂:抓取瓶子后,瓶子位置、手中状态和后续可行动作都改变。
与单步抓取相比,闭环更能体现具身智能的研究价值。早期许多抓取方法把问题变成点云或几何推理:看一眼物体,预测抓取点,执行一次,任务结束。它虽然发生在机器人上,但仍像一个三维模式识别任务。具身智能要追求的是多步闭环:每次行动都改变世界状态,模型需要重新观察、重新计划、继续执行。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{perception-action-loop.png}
\caption{Perception-Action Loop:具身智能的核心叙事是感知、行动和反馈闭环。自制概念图,依据 00:25:08--00:41:15 对谈内容整理。}
\end{figure}
读图:闭环让视觉从分类变成行动
从 Observe 到 Infer,再到 Act、Feedback 和 Adapt,关键变化是环境不再只是输入图片,而是会因为动作产生新状态。读图时要注意最后的 Adapt:具身智能不是一次预测,而是连续地用反馈修正策略。
标志性事件
王鹤提到,李飞飞将具身智能称为计算机视觉未来的三颗北极星之一,黄仁勋在 NVIDIA 场合强调下一代 AI 是 embodied AI。这类表述把学术边缘方向推向主流,也让视觉、机器人、强化学习和大模型社区开始围绕同一个词汇聚。
本章小结
具身智能的学术史是一场“视觉主动化”的迁移:从图像识别转向导航,从单步推理转向闭环行动,再逐步吸纳 manipulation、robot learning 和大模型通用任务能力。
王鹤的学术路径:从视频到合成数据
上一章讲学术群体,本章讲王鹤个人路径,因为他的博士项目几乎预演了后来具身智能的两条主线:从人类视频学习交互关系,以及用合成数据解决真实标注稀缺。第一项工作是从人类视频中学习多步人与物体交互,生成动画或驱动一个简单的智能杯子 demo。它本质上要学习状态、动作、物体状态变化和下一步可能动作之间的因果关系。
这件事在 2016 年很早。那时没有今天的多模态大模型,也没有成熟的 VLA 数据。要知道杯子空/满、瓶盖开/关、人手空/握物、动作片段边界,都需要拆成多个模型、手工标注和复杂系统。王鹤后来总结,虽然完全从视频学习世界模型在今天仍未成为最能推进具身智能的技术,但这个项目让他很早意识到:真正的问题不是识别,而是从交互中学出世界状态变化。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{academic-path.png}
\caption{王鹤学术路径:从人类视频、世界模型到家庭机器人研究目标。自制概念图,依据 00:41:15--01:25:08 对谈内容整理。}
\end{figure}
读图:两个博士项目对应两条具身主线
第一条是从视频中理解人和物体的多步因果交互,接近今天的 world model 问题;第二条是类别级物体位姿估计,用合成/混合现实数据解决真实标注不足。读图时要把它们看成同一目标的两个侧面:理解交互状态,以及低成本获得可训练数据。
从物理建模到 AI 研究
本节解释为什么王鹤能把复杂交互抽象成模型。他本科和早期博士背景偏物理、器件和数学建模,习惯从实验数据中拟合模型,再用模型预测新 case。后来他发现半导体 clean room 的实验迭代慢、控制差,与自己的思维节奏不匹配,于是转向 AI、图形学和物理交互。这段经历说明,具身智能不只是写代码,还需要理解物体状态、动作因果和物理变化。
博士第一项项目最难的不是某个网络结构,而是 formulate research problem:哪些状态需要被抽取,哪些动作改变哪些物体状态,如何把这些变化串成时序因果模型。王鹤提到自己在还不知道 Perception-Action Loop 这个流行表达时,就给导师画过 state-action-change world-state 的图。这正是后来的具身智能底层循环。
术语消化:交互建模
| 术语 | 含义 | 在本期中的作用 |
|---|---|---|
| Object State | 物体状态,如空/满、开/关、位置/朝向 | 决定下一步动作是否可行。 |
| Action Grammar | 用规则描述动作顺序的传统方法 | 可解释但泛化和数据驱动能力有限。 |
| World Model | 预测动作如何改变世界状态的模型 | 具身智能长期目标之一。 |
| Perception-Action Loop | 感知、行动、反馈的循环 | 把静态识别变成闭环智能。 |
类别级位姿估计与合成数据
第二项工作更接近当下具身数据路线。传统 6D pose estimation 往往针对一个已知实例:先给物体定义坐标原点和标准方向,再预测它相对坐标系的旋转和平移。王鹤的问题是类别级位姿估计:面对从未见过的马克杯,模型能否知道杯口朝上、杯柄朝右,而不需要每个杯子都扫描建模、逐个定义坐标系。
真实数据几乎不存在。互联网图片没有六维位姿标注,博士生也不可能拍摄并标注无限多马克杯。于是他采用图形学和混合现实数据:去宜家拍真实桌面背景和深度,把数字马克杯渲染到真实背景上,自动获得位姿标签,生成几十万张训练图。这个方法和今天的合成数据、Sim2Real 思想高度一致:真实背景提供接地,虚拟前景提供可控标签,最终在真实世界评估。
合成数据的早期版本
类别级位姿估计说明,合成数据不是今天才出现的潮词。只要真实数据标注不可规模化,研究者就会用图形学、仿真或混合现实来制造可控训练样本。今天的机器人合成数据只是把这个思想扩展到更多物体、动作、场景和物理交互。
为什么坚持家庭机器人
本节把个人路径转到战略选择。2020 年前后,李开复曾建议王鹤把三维视觉和位姿估计能力用于自动驾驶、LiDAR 和车的位姿估计;王鹤则坚持做 home robot,因为他认为家庭场景的交互空间最大,也最接近“物理世界通用智能体”。这在当时很不合时宜:家用机器人被认为还有很远,国内也几乎没有盟军。
回国后,王鹤在北大和智源推动具身智能方向,写文章介绍 embodied AI,和卢策武等少数研究者一起把这个概念带入国内学术与产业讨论。这里的教学重点不是个人传奇,而是早期方向选择的结构:如果一个研究者相信 next wave,就必须忍受一段没有共识、没有盟军、没有资本热度的时期。
本章小结
王鹤的学术路径把具身智能的两个关键问题提前暴露出来:第一,智能要理解动作如何改变世界;第二,真实数据缺口需要合成/混合现实数据补足。家庭机器人目标则把这些研究问题推向更大的物理世界应用。
软硬件螺旋上升与数据差距
前半讲学术史,本章进入产业化路线。王鹤认为,具身智能的软件和硬件是螺旋上升问题:硬件太激进、不成熟,会拖累智能训练和场景落地;软件能力提升后,又会反过来要求更适合采集、执行和交付的硬件。不能把机器人看成“先造一个通用身体,再等大脑学会一切”,也不能只做软件不管本体约束。
访谈描述里有一个关键判断:所有工业机械臂去年的全球总产值只有约 1000 亿 RMB,和理想一家车企产值相当。这个数字的意义是,机器人行业真实商业盘子还不大,不能只靠宏大叙事估值。银河通用的路线是,在已有硬件基础上做相对专用的智能,同时逐步走向越来越通用的智能。这里的“专用”不是放弃通用,而是先找到能产生生产力的场景。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{software-hardware-spiral.png}
\caption{软硬件螺旋上升:硬件过激会拖累智能,智能成熟又反推硬件。自制概念图,依据 01:25:08--01:44:34 对谈内容与视频描述整理。}
\end{figure}
读图:螺旋不是线性流水线
硬件、本体、数据、模型和场景不是先后完成的模块,而是互相反推。硬件决定能采什么数据、能执行什么动作;模型决定需要什么传感器和动作空间;场景决定成本和可靠性要求。读图时要看循环,而不是把硬件当成一次性采购。
VLM 为什么弱于 LLM
本节解释一个核心数据差距。LLM 的文本数据接近“人类在互联网上说过的话”的大规模覆盖;VLM 的视觉数据只是“人眼观测世界”的很小一部分覆盖;VLA 还要额外加入 action 数据,而 action 数据系统采集也就是近两年才开始。换句话说,视觉-语言模型不是因为架构天生低级,而是因为数据覆盖、标注结构和行动反馈都远弱于文本。
这能解释为什么机器人不能简单复用语言模型 scaling law。语言模型训练的是 token 序列,互联网已经提供大量文本;机器人训练的是视觉、语言、动作、状态、失败、恢复和场景之间的耦合,数据天然更少、更贵、更偏。合成数据、遥操作、仿真和出货回流之所以重要,正是因为它们试图补足 action data 的缺口。
术语消化:LLM、VLM、VLA 的数据差别
| 模型类型 | 数据覆盖 | 关键短板 |
|---|---|---|
| LLM | 互联网文本接近覆盖大量人类表达与知识交换 | 文本不直接包含物理执行成本。 |
| VLM | 图像/视频覆盖只是一小部分人类视觉经验 | 观测缺少完整三维、时间和因果反馈。 |
| VLA | 还需要动作轨迹、关节/末端状态和执行结果 | action data 刚开始系统采集,真实成本极高。 |
| 机器人策略 | 需要视觉、语言、动作、失败恢复和场景目标耦合 | 数据必须接地到硬件和真实任务。 |
讲者强调,不要把目标一步定得过高:一两年内做出完全通用 VLA,从当前数据和产业条件看并不现实。更稳的路径是围绕一个可批量复制的 application 来发展智能,让模型覆盖这个应用内所有必须完成的事情。例如商超和药店场景中的移动、抓取、放置、补货和整理,技能集合有限,但物体、品牌、门店和摆放方式要充分泛化。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{vlm-vs-llm-data.png}
\caption{VLM 为什么弱于 LLM:视觉覆盖与动作数据远少于文本覆盖。自制概念图,依据 01:25:08--01:44:34 对谈内容与视频描述整理。}
\end{figure}
读图:差距在数据覆盖,而不只是模型名字
左侧 LLM 享受大规模文本覆盖,右侧 VLM/VLA 需要视觉、三维、动作和反馈。VLA 中的 Action Data 是最稀缺的一层:没有动作轨迹和结果,模型很难从“看懂”走向“做成”。
激进硬件方案会拖累智能
如果硬件不成熟、维护成本高、动作空间不稳定,模型训练会不断适配错误本体,场景交付也会被可靠性吞噬。具身智能不是越通用越好,而是要在当前硬件可承载的范围内找到能产生真实价值的智能。
本章小结
具身智能不是纯软件或纯硬件问题。软件、硬件、数据和场景必须螺旋上升;VLM/VLA 相比 LLM 的差距,核心在于视觉覆盖不足和 action data 稀缺。
两个泥潭:长期漂浮与算不过账
上一章讲软硬件和数据,本章进入创业公司的风险。王鹤认为,具身智能公司如果陷入两个泥潭,天花板会很有限。第一个是“长期漂浮”:公司长时间停留在概念、演示和融资叙事里,不进入真实场景,不接受客户、成本和可靠性检验。第二个是“算不过来账”:即使进入场景,边际成本不下降,越交付越重,最终生产力不能成立。
这两个泥潭本质上都是反馈错位。长期漂浮意味着公司的 reward model 是 attention 和 valuation;算不过账意味着公司的技术路线没有让单位交付成本下降。具身智能是物理行业,不能只看模型 benchmark,也不能只看 demo 视频。它必须回答:一台机器人进入一个场景后,是否能比人更稳定、更便宜或更可扩展地完成一类任务?
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{two-traps.png}
\caption{两个泥潭:长期漂浮与算不过账都会限制公司天花板。自制概念图,依据 01:44:34--01:55:17 对谈内容与视频描述整理。}
\end{figure}
读图:一个是叙事风险,一个是经济性风险
长期漂浮的问题是脱离真实客户,算不过账的问题是交付越多越亏。读图时要把两边连起来看:只做 demo 会避免短期成本暴露,但也错过真实数据;进入场景后如果边际成本不降,数据飞轮也无法支撑商业闭环。
应用场景内的泛化
本节解释银河通用为什么选择“应用场景内泛化”。通用机器人很诱人,但过早追求全场景泛化会让任务、硬件、数据和成本同时爆炸。更现实的路线是在一个具体应用场景里做足泛化:例如货架场景中不同商品、摆放、遮挡、缺货、补货和异常情况。它不是单点自动化,而是在有限世界内构建可扩展能力。
这个思路和大模型产品化也相似:先把任务域、反馈、成本和数据闭环跑通,再逐步扩大能力边界。对机器人来说,场景内泛化还有一个额外好处:一旦出货,真实数据会回流,系统可以从真实失败中学习。没有出货量,数据飞轮只是幻觉。
场景内泛化
具身智能早期的有效路线可能不是“先做通用机器人”,而是在一个真实付费场景内,把物体、任务、异常和成本做出足够泛化。场景边界越清晰,数据闭环和商业闭环越容易被验证。
本章小结
具身智能公司要避开两个泥潭:不要长期漂浮在叙事里,也不要进入场景后算不过账。真正的路线是找到可付费场景,在场景内泛化,并让出货回流数据。
生产力即产品:数据飞轮与真实交付
上一章说明公司要避开叙事和经济性两个泥潭,本章进一步回答:如果不靠故事,具身智能到底卖什么。大模型可以说“智能即产品”,因为用户直接购买聊天、写作、代码、搜索和 Agent 能力;具身智能则必须说“生产力即产品”。机器人不只是展示智能,而是要在物理世界创造可计量的劳动替代、效率提升或新增产能。客户最终购买的不是“像人”,而是货架整理、搬运、拣选、巡检、清洁、配送等任务的稳定产出。
这也解释了为什么真实数据采集非常贵。雇人遥操作机器人采集真实数据,成本高、速度慢、场景有限;节目描述里提到真实数据在训练数据中只占 1%,合成数据管线挑起大梁。这个比例不能机械照搬到所有公司,但它说明:如果没有合成数据、仿真和场景内泛化,真实数据成本很难支撑具身智能早期规模化。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{productivity-as-product.png}
\caption{生产力即产品:大模型卖智能,具身智能必须卖可衡量生产力。自制概念图,依据 01:55:17--02:13:51 对谈内容与视频描述整理。}
\end{figure}
读图:从任务到收入必须经过成本
图中 Task 到 Robot 只是开始,真正关键是 Cost、Output 和 Revenue。机器人要产生产品价值,必须让单位任务成本下降,输出稳定可验,客户愿意复购。没有成本下降的智能,只是昂贵演示。
遥操作经济账
本节把“真实数据很贵”具体算出来。王鹤给出的估算是:一台 full-size 人形机器人制造成本至少十万元级;如果为了采数据买一万台,硬件投入就是十亿元级。更贵的是运营:每台机器人如果两班倒,甚至每班两个人遥操作,再加标注、质检和维护,一个月维持万台采集系统的成本会到数亿甚至十亿元量级。这个账解释了为什么“全部靠真实遥操作数据”很难成为早期通用路线。
经济账:为什么不能只靠遥操作采数据
| 成本项 | 粗略量级 | 启发 |
|---|---|---|
| 机器人硬件 | 万台 \(×\) 十万元级 | 采集前就需要十亿元级资产投入。 |
| 遥操作人力 | 每台多班次、多人协作 | 人力不是一次性成本,而是持续 burn。 |
| 标注与质检 | 轨迹、状态、失败、任务结果都要检查 | 动作数据不能像普通图片一样粗标。 |
| 场景与维护 | 场地、维修、补货、异常处理 | 物理世界会不断制造非模型问题。 |
这也是自动驾驶与具身智能的重要差别。汽车可以卖给用户,用户每天开车时顺带产生数据,数据成本被产品使用摊掉;机器人如果还不能独立创造价值,就无法把数据采集伪装成商业化。把“没有功能的机器人”卖给客户,让客户自己采、自己训,短期也许能形成收入,但长期会把研发风险转嫁给客户。
数据 recipe 与出货回流
本节把数据问题转成飞轮问题。具身智能的数据 recipe 可以理解为:互联网/视觉数据提供常识和表征,合成数据提供长尾和可控训练,少量真实数据提供 grounding,出货后的真实失败提供持续回流。早期没有出货量时,真实数据比例可能很低;一旦进入真实场景,数据回流会把产品和训练管线连起来。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{data-recipe-robotics.png}
\caption{具身数据 Recipe:真实 1\%、合成管线、出货回流和数据飞轮。自制概念图,依据 01:55:17--02:13:51 对谈内容与视频描述整理。}
\end{figure}
读图:越靠上越贴近真实,也越稀缺
底层通用数据建立基础能力,中层合成数据放大任务分布,少量真实数据校准,出货回流提供最关键的失败和边界案例。读图时要避免一个误解:真实数据占比低不代表不重要,恰恰因为它稀缺,所以要用来校准和验证整个系统。
没有功能的机器人不能卖成数据飞轮
访谈描述提到一种 tricky 现象:把没有功能的机器人卖给别人,让客户自己采、自己训,并承诺未来会成为员工。这个模式风险很大,因为它把研发风险转嫁给客户,也会透支行业信用。
生产力的定义
王鹤把生产力定义得很朴素:单位时间内干的活必须跟人相当,或者至少在一个清晰边界内提升效率。如果机器人比人慢太多、干不久、故障多,或者必须靠大量人工兜底,它就不是优质生产力,甚至可能是落后生产力。
本章小结
具身智能的产品不是“看起来聪明”,而是可计量生产力。数据飞轮也必须建立在真实交付上:合成数据降低早期成本,出货回流提供真实校准,客户价值验证路线是否成立。
资本轰炸后的人为乱象
上一章讲生产力,本章讲行业乱象。ChatGPT 之后,具身智能从小众概念变成资本宠儿,融资、估值和 demo 迅速升温。王鹤的批评核心是:行业最乱的地方在于分不清谁在创造生产力,谁只是在讲故事。更严重的是,有些团队展示时不明确说明遥操作,甚至把遥操作伪装成自主能力,这会直接破坏公众和客户对行业的信任。
这类问题不只是道德问题,也会变成技术问题。错误展示会把行业 reward model 带偏:团队为了融资和传播优化 demo,而不是为了真实场景成功率、成本下降和出货回流优化系统。长期下去,资本会惩罚整个行业,真正做生产力的团队也会被噪音拖累。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{capital-chaos-reward.png}
\caption{资本轰炸后的乱象:谁创造生产力,谁只是在讲故事。自制概念图,依据 02:13:51--02:25:25 对谈内容与视频描述整理。}
\end{figure}
读图:错误 reward 会制造错误行为
图中心是 reward。若 reward 来自融资额、估值和流量,团队会自然优化故事和演示;若 reward 来自真实展示、客户复购和万台应用,团队才会优化生产力。读图时要把“真实展示”看作行业基础设施:没有可信展示,市场无法判断进步。
五年万台应用的验证钟
王鹤给出一个强判断:五年内领域必须出现万台以上的应用,如果做不到,具身智能这个领域会被证伪,至少当下叙事会被证伪。这个说法不一定是精确预测,但它提供了行业验收尺度。万台不是为了追求数字好看,而是为了证明硬件、软件、交付、维护、数据回流和客户价值已经跨过实验室阶段。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{robotics-validation-clock.png}
\caption{五年验证时钟:五年内需要万台以上应用,否则领域叙事会被证伪。自制概念图,依据 02:13:51--02:25:25 对谈内容与视频描述整理。}
\end{figure}
真实展示原则
可以遥操作,但必须说明遥操作;可以展示半成品,但必须说明边界;可以融资,但不能用不可复现的 demo 替代真实进展。对具身智能来说,行业信用本身就是一项公共资产。
验证矩阵:什么才算真实进展
| 验证项 | 要看什么 | 不能用什么替代 |
|---|---|---|
| 公开展示 | 现场、无隐藏遥操作、可复现任务 | 剪辑视频和单次成功片段。 |
| 场景运营 | 每天处理多少真实订单/任务,持续多久 | 战略合作和意向协议。 |
| 出货规模 | 是否达到千台、万台级真实部署 | 工程样机数量。 |
| 生产力 | 单位时间产出、故障率、人力兜底比例 | “像人”的外观和动作。 |
| 数据飞轮 | 部署失败是否回流训练和产品改进 | 静态采集中心和一次性演示。 |
这个矩阵也解释了为什么王鹤反复强调不要砸行业招牌。中国面临老龄化和劳动力缺口,机器人生产力不是单纯创业风口,而可能关系到制造业和服务业的长期供给。如果行业被虚假展示和不切实际承诺拖入“冰河时代”,真正需要机器人补充劳动力的社会问题也会失去一个可能解法。
黄仁勋插曲的意义
前面讲的是行业信用,本节用访谈最后的插曲把技术生态收回来。黄仁勋来华访问时,王鹤和他同桌且挨着坐,观察到黄仁勋能吃辣、吃了不少水煮肉片,也对变脸表演给出热情反馈。这个片段看似八卦,但在笔记里可以作为一个侧面:NVIDIA、物理 AI、具身智能和中国机器人创业者已经处在同一个产业场域。算力、仿真、机器人本体和落地场景不再是平行线。
王鹤对这次同桌的解释也和技术主线有关:NVIDIA 很重视合成数据,因为合成数据需要 GPU 渲染、仿真和训练;如果这条路线走通,GPU 公司就能支撑具身智能的半边天。银河通用也向 NVIDIA 展示了用合成数据训练并迁移到真实世界的工作。这说明“生产力即产品”和“合成数据是数据 recipe 的关键”不是两个割裂判断,而是同一个闭环的两端:数据生产支撑能力,能力进入场景产生生产力,场景再回流真实数据。
本章小结
资本会放大机会,也会放大乱象。具身智能如果要建立长期信用,必须把 reward 从融资和 demo 转向真实展示、生产力、出货规模和客户价值。
总结与延伸
本节把整期访谈收束成五个结论。第一,具身智能最初不是传统机器人产业的自然延伸,而是计算机视觉从被动识别走向主动行动的学术迁移。第二,语言不是智能本质,而是人类智能的一次跃变;机器人智能必须回到环境反应和物理反馈。第三,VLM/VLA 的瓶颈很大程度来自数据覆盖不足,尤其是 action data 稀缺。第四,软件、硬件、数据和场景必须螺旋上升,不能单独押注通用本体或通用大脑。第五,产业最终必须用生产力、出货和真实展示证明自己。
把 EP106 放进张小珺机器人线索
EP106 提供学术史和行业伦理,EP109 提供仿真/合成数据基础设施,EP121 提供 DeepMind 机器人模型视角,EP132 提供整机和供应链案例。四期合在一起,构成“概念起源--数据生产--模型路线--产业落地”的机器人学习路径。
关键 takeaways
- 具身智能的核心不是机器人外形,而是感知、行动和环境反馈的闭环。
- 语言增强智能,但物理世界智能必须通过身体和 action data 接地。
- 真实数据很贵,合成数据和出货回流是机器人数据 recipe 的关键组成。
- 早期公司要避免长期漂浮和算不过账,先在应用场景内做泛化。
- 行业信用来自真实展示和生产力验证,遥操作、融资和 demo 不能替代真实进展。
拓展阅读
- 想理解仿真和合成数据基础设施,可对照 EP109 谢晨访谈。
- 想理解机器人基座模型、跨本体和世界模型,可对照 EP121 DeepMind 谭捷访谈。
- 想理解整机、供应链和 Data Recipe,可对照 EP132 星海图高继扬访谈。