跳转至

Ep109 Pwy0Hvuh8Ga

LaTeX 源码 · 备用 PDF · 观看视频

导读:机器人数据荒到底荒在哪里

本节先建立整期的阅读方式。EP109 不是泛泛地说“机器人需要数据”,而是把数据荒拆成四层:真实机器人数量不足,物理交互难采集,仿真和真实之间有 gap,以及数据是否真正提升模型还需要评价系统验证。谢晨的经历横跨 Cruise、NVIDIA、蔚来和光轮智能,因此他的叙述有一个很实用的特点:每次谈技术概念,都会回到“它能不能让模型变好、能不能让系统落地、能不能形成商业闭环”。

这期访谈也给张小珺机器人系列补上一个关键拼图。EP121 从 DeepMind 视角讲机器人基座模型、跨本体和世界模型;EP132 从星海图视角讲整机、供应链和 Data Recipe;EP109 则把底层的数据生产系统讲透:为什么合成数据不是“偷懒替代真实数据”,而是一套必须被真实反馈、评价系统、物理参数和客户需求持续校准的基础设施。

本期核心命题

具身智能的数据荒不是“视频太少”或“机器人太少”这么简单,而是缺少可规模化、可验证、可服务强化学习和真实部署的物理世界数据。合成数据与仿真的价值,取决于它们能否构成 Real2Sim、Simulation、Sim2Real 和评价系统之间的闭环。

讲者强调,一个看起来很炫的仿真世界,如果不能让感知模型、预测模型或机器人策略变好,只是一个漂亮玩具。真正的数据基础设施要从机器学习目标反推:哪些场景稀缺,哪些变量影响模型,哪些合成样本能带来真实 metric 提升,哪些 gap 必须被物理采集和真实部署反馈修正。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{sim2real-loop.png}
\caption{Sim2Real 闭环:从仿真生成数据,到现实部署,再用真实反馈修正仿真。自制概念图,依据 00:02:48--00:16:17 对谈内容整理。}
\end{figure}

读图:合成数据不是替代现实,而是把现实放大

这张图的起点不是“凭空生成”,而是真实世界中的稀缺问题:行人突然窜出、雾天、坡道、抓取失败、冰箱门铰链等。仿真把这些问题参数化、组合化、规模化,训练后再回到真实世界验证。读图时要看闭环箭头:如果真实反馈不能回到仿真,合成数据会越做越像内部自嗨;如果评价系统不能衡量模型是否提升,数据量再大也无法证明有效。

视觉策略说明

本视频是固定访谈画面,没有讲义、白板或产品演示。正文遵循播客工作流:封面只放在首页,正文不重复使用访谈画面;所有正文图像都是自制概念图,用来承载 Sim2Real、Real2Sim、产业链和 scaling law 等教学结构。

本章小结

EP109 的主线可以压缩成一句话:具身智能要 scale,不能只等真实机器人自然产生数据,而要建立一套能被现实校准、能被模型评价、能服务真实部署的合成数据和仿真基础设施。

Sim2Real、Real2Sim 与合成数据

本章先消化高频术语,因为后面的产业判断都建立在这些概念上。Sim2Real 是从仿真走向现实,Real2Sim 是把现实映射进仿真,Synthetic Data 是通过仿真、算法和程序化流程生成可训练数据。三者不是并列 buzzword,而是同一个工程闭环的不同位置:真实世界给出问题,仿真扩充问题,模型在合成数据上训练,部署结果再反向校准仿真。

谢晨在 Cruise 的经验提供了一个关键教训。早期团队用游戏工程师复刻旧金山,看起来像 Matrix,但感知部门无法直接使用这些数据,因为它们没有被机器学习目标定义。后来真正有效的做法,是先建立评价系统,判断合成数据是否能提升模型,再反过来改造资产、场景、传感器噪声和数据生成链路。

术语消化:仿真、合成数据和迁移

术语 第一层含义 在本期中的关键问题
Sim2Real 在 simulation 中训练或生成数据,再迁移到真实世界 真实部署是否成功,决定仿真是否有用。
Sim2Real gap 仿真与真实之间的分布差异 不是追求零差距,而是判断差距小到什么量级时数据开始有用。
Synthetic Data 由仿真、算法、程序化流程或人机协作生成的数据 关键不是生成数量,而是信息密度、质量和模型效用。
Real2Sim 把真实场景、资产、物理参数和机器人本体映射进仿真 视觉重建相对容易,物理参数和交互力学才是难点。
Evaluation Loop 用模型训练和真实部署结果反推数据质量 没有评价系统,数据团队很难知道该改哪里。

从漂亮玩具到机器学习数据

本节回答一个具体问题:为什么“看起来真实”的仿真不等于“对模型有用”的仿真。Cruise 早期的仿真系统能复刻街区,但如果传感器噪声、光照分布、标注、场景概率和长尾事件不符合模型训练需要,感知系统就无法受益。谢晨的第一步不是加画质,而是建立评价系统。

评价系统有两类指标。第一类是绝对真实性:光线、色彩、传感器噪声、几何、标注、场景分布和真实数据是否对齐。第二类是效用性:把这批合成数据喂给模型之后,模型在目标任务上的表现是否提升。讲者用浓咖啡和兑水冰咖啡作比喻:后续数据越来越看重“每单位数据给模型带来多少信息增量”,而不只是体积。

评价系统优先

合成数据团队最早要问的不是“怎么生成更多”,而是“什么数据能让模型变好”。没有评价系统,仿真团队只能优化视觉观感;有了评价系统,团队才能知道要改传感器噪声、场景分布、资产物理参数,还是数据质检链路。

可以把数据效用写成一个简化目标:

\[ U(D_s)=\Delta M_{\mathrm{target}}-\lambda C(D_s)-\gamma G(D_s,D_r) \]

其中,\(D_s\) 表示合成数据,\(D_r\) 表示真实数据,\(\Delta M_{\mathrm{target}}\) 表示目标模型指标提升,\(C(D_s)\) 表示生成与质检成本,\(G(D_s,D_r)\) 表示合成和真实之间的关键 gap,\(\lambda\)\(\gamma\) 是成本与 gap 的权重。这个公式不是访谈原文,而是对访谈方法论的教学化表达:有效合成数据必须同时考虑模型收益、生产成本和真实差距。

合成数据流程与配比

接下来本节把流程落到一个例子:路上行人突然窜出。这类 corner case 在真实数据中少,但对安全很关键。合成数据流程不是把一个视频复制一万份,而是围绕一个真实问题做系统性变体:不同年龄、身形、衣服、路线、车道、天气、光照、交通状态和传感器噪声。然后让算法在仿真里跑一万遍,发现感知、预测和规划是否还会出错。

配比没有固定答案。对自动驾驶整体盘子而言,真实车队每天产生大量真实数据,合成数据可能在整体占比里不是最高;但对稀缺 corner case,真实样本可能一年也不够,因此一个真实问题会配上成千上万个合成变体。节目中给出的经验是:整体上曾经大约 30% 使用合成数据,而在长尾场景上可以超过 1:99 或 1:100 的真实/合成比例。

流程消化:从一个问题到一批训练数据

步骤 做什么 为什么重要
真实问题定位 找到一次危险或失败案例 数据生成必须从真实风险出发。
场景参数化 改行人、车道、天气、光照、交通流 让模型看到同一问题的多种表现。
传感器仿真 模拟相机、雷达、噪声和观测视角 模型最终看到的是传感器数据。
自动标注与质检 生成 2D/3D/4D 标签并检查质量 标注错误会直接污染训练。
模型回灌 用数据训练或测试感知/预测/规划 效用要由模型指标和部署结果证明。

配比不能脱离任务讨论

说“真实数据 1%,合成数据 99%”容易误导。正确问法是:对哪个任务、哪个失败模式、哪个模型模块、哪个部署阶段,合成数据的边际效用更高?整体数据盘子、长尾场景和强化学习环境的配比可能完全不同。

本章小结

Sim2Real 和 Real2Sim 构成数据闭环。合成数据的价值不由画面真实感决定,而由两类评价决定:它和真实世界关键变量是否对齐,以及它是否能让目标模型在真实任务上变好。

智能驾驶 vs 具身智能:视觉游戏与物理交互

上一章讲了合成数据如何在自动驾驶中起作用,本章转向具身智能为什么更难。自动驾驶不是简单问题,但它有一个巨大优势:车这个平台已经存在上百年,大量车辆在真实道路上运行,L2+ 车队能持续回传真实视觉、传感器和驾驶数据。机器人则没有上百万台人形或四足机器人在家庭、工厂、酒店里自然运行,因此真实数据飞轮很难先转起来。

这也是谢晨判断“具身智能必须首先依赖大量合成数据,再用少量真实数据校准”的原因。自动驾驶更像视觉和规则游戏:道路、车道、交通参与者、车辆本体相对明确;具身智能要处理杯子、吸管、冰箱、键盘、布料、液体、摩擦、碰撞和不同机器人本体。物理交互的复杂度,使它不能只靠互联网上已有的图像和视频。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{av-vs-embodied-data.png}
\caption{智能驾驶 vs 具身智能:智能驾驶偏视觉游戏,具身智能更依赖物理交互。自制概念图,依据 00:16:17--00:32:41 对谈内容整理。}
\end{figure}

读图:为什么自动驾驶的真实数据飞轮更容易

左侧自动驾驶有大量真实车辆、稳定本体和道路结构,因此真实数据占主体,合成数据主要放大长尾和安全问题。右侧具身智能缺少自然运行的机器人群体,任务又跨物体、空间、接触和动作,因此合成数据与仿真必须提前承担“造世界”的角色。

物理交互瓶颈

本节进一步解释“物理交互”到底增加了什么难度。视觉数据在互联网上非常丰富,照片和视频可以帮助生成街道、车辆、树木和路面;但物理交互数据不只是外观,而是力、摩擦、转轴、碰撞、材质、重量、形变和失败恢复。没有底层交互数据,AI 很难凭空生成可靠的物理行为。

冰箱门是访谈里的好例子。要让机器人学会开冰箱,仿真资产不能只是一个冰箱外壳。它需要门的转轴、铰链、磁吸力、不同角度下的开门力、抽屉和门板的碰撞体、不同冰箱型号的分布,以及机器人手和门之间的接触力。视觉上像冰箱不够,物理上可交互才是关键。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{physical-interaction-bottleneck.png}
\caption{物理交互瓶颈:抓取、接触、力反馈和材料差异让数据特别贵。自制概念图,依据 00:16:17--00:32:41 对谈内容整理。}
\end{figure}

读图:具身数据的单位不是 frame,而是 interaction

图中每一个变量都能导致任务失败:抓取点稍偏会滑落,材质不同会改变摩擦,执行器误差会累积,碰撞体不准会让仿真策略在真实世界失效。对具身智能来说,一条数据如果没有动作、力学结果和失败反馈,就很难教会机器人真正做事。

不要把视频数据误当作机器人数据

互联网视频能告诉模型“人类怎么做”,但通常没有机器人本体、关节状态、接触力、动作命令和环境可控变量。它适合预训练世界知识,却不能直接替代机器人训练所需的闭环交互数据。

遥操作路线与商业闭环

本节回应一个常见反问:既然真实数据重要,能不能通过遥操作机器人先赚钱、再采数据?谢晨认为这在少数场景可能成立,但作为全局路线很难快过合成数据为主的路线。原因是遥操作必须先产生客户愿意付费的价值,否则只是高成本采样;跨州、跨国遥操作还会遇到监管、人力成本、工会、场景租赁和运营复杂度。

自动驾驶的数据飞轮之所以强,是因为车本来就能卖,用户开车时顺手把数据带回来;机器人还没有进入这个状态。一个遥操作机器人如果不能在机场、酒店、餐饮、零售等场景创造足够 ROI,它就不能形成“付费使用产生数据,数据提升能力,能力带来更多使用”的正循环。讲者判断,特斯拉或许有内部主机厂场景和组织能力走一部分路线,但多数机器人公司不能简单复制。

术语消化:真实路线、遥操作与合成路线

路线 数据来源 主要约束
真实车队路线 量产设备自然运行并回传 需要产品先有用,硬件规模已经存在。
遥操作路线 人远程控制机器人并采集动作轨迹 人力、场景、法规和 ROI 压力很高。
合成数据路线 仿真场景中批量生成任务和交互 需要高质量 Real2Sim、物理引擎和评价系统。
混合路线 真实少量校准,合成大规模扩增 当前最可能成为主流的工程方向。

本章小结

自动驾驶的数据瓶颈主要集中在长尾和安全场景;具身智能的数据瓶颈则深入到物理交互本身。机器人没有现成的大规模真实数据飞轮,因此合成数据和物理仿真不是补丁,而是早期路线的核心。

Physical Real2Sim:好仿真的真实门槛

前面解释了为什么具身智能必须依赖仿真,本章进入最硬的技术问题:什么才算好的仿真。谢晨区分视觉 Real2Sim 和物理 Real2Sim。视觉 Real2Sim 是把外观、几何和场景看起来重建出来;物理 Real2Sim 则要把真实世界中的力学属性、交互关系、机器人本体和物理参数映射到仿真里。后者才是具身智能真正需要的版本。

一个好仿真至少需要四个组成部分:高质量 sim-ready 资产和场景,准确的物理 solver,渲染和传感器仿真,以及可被算法训练调用的 API、metadata 和工具链。少任何一块都会出问题。比如冰箱门看起来很真但打不开,或者能打开但需要的力不对,机器人在仿真里学到的策略都可能无法迁移。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{real2sim-workflow.png}
\caption{Real2Sim 工作流:从真实世界采集、重建、校准到可复现仿真。自制概念图,依据 00:32:41--00:46:18 对谈内容整理。}
\end{figure}

读图:Real2Sim 是把物理世界变成可训练世界

图中最重要的是“校准”而不是“重建”。真实采集拿回外观、几何、力学参数和交互轨迹;仿真资产要能被机器人碰、拉、推、抓;最后还要通过真实任务评估来检查策略能否迁移。只有走完整条链路,Real2Sim 才从 3D 建模变成训练基础设施。

好仿真的四个判据

本节把“好仿真”具体化。第一,资产和场景要有足够物理信息,包括碰撞体、关节、摩擦、重量、力矩和材质。第二,底层 solver 要足够准确,并能处理刚体、非刚体、布料、液体等不同问题。第三,仿真输出要通过 API 和 metadata 服务算法训练,不能只是给人看。第四,仿真要足够高效,能够服务并行强化学习,尤其是有视觉在环的 RL。

这里有一个容易被忽略的点:仿真里的机器人本体也必须准。访谈提到,有客户真实机器人手能拿一两公斤,但仿真里只能拿 0.1 公斤;团队花六个月调不准。这说明 Sim2Real gap 不只来自场景,也来自机器人模型本身。一个错误的手、一个错误的关节限制、一个错误的力矩曲线,都会让训练结果失真。

好仿真的判据

好仿真不是画面好,而是能支持从仿真训练出的算法落地到真实机器人。它必须有真实物理参数、准确 solver、可训练工具链、高效并行能力,以及不断验证 Sim2Real 成败的评价回环。

术语消化:物理 Real2Sim

术语 含义 为什么影响训练
Solver 物理引擎中计算运动、碰撞和约束的求解器 决定力学结果是否可信。
Collision Body 参与碰撞计算的几何体 没有正确碰撞体,抓取和开门都失真。
Sim-ready Asset 可直接用于仿真交互的资产 不只是模型外观,还要含物理参数和接口。
Metadata 附加标签、状态、参数和语义信息 训练和评估需要读取这些结构化信息。
Parallel Environment RL 中并行运行的多个仿真实例 决定训练吞吐和探索效率。

模仿学习与强化学习的差别

本节从训练目标看仿真的要求。模仿学习可以用开环数据:人或遥操作系统演示一段轨迹,模型学习如何复制。它适合做早期 demo,但泛化往往有限。比如模型会打开某个高瓶子的瓶盖,却不一定能泛化到矮瓶子、不同旋转方式或不同材质。强化学习则需要闭环环境,让机器人不断试错并从 reward 中学习,这就要求仿真既准确又高效。

讲者把机器人 RL 类比到大模型后训练:先有基座模型,再通过强化学习 fine-tune。具身智能也可能需要 VLA 或机器人基座模型,再在高质量仿真中通过 RL 调整策略。难点是视觉在环的 RL 环境非常重,一张 GPU 上能并行跑多少 environment、total FPS 有多高,会直接决定训练能否规模化。

仿真不支持 RL,就很难支撑下一阶段泛化

只服务模仿学习的仿真,可以生成轨迹和演示;服务 RL 的仿真,必须能让策略行动、观察、失败、重试和获得 reward。后者对物理准确度、并行效率和工具链要求高得多。

饮用水级仿真

本节总结光轮智能的愿景:好的仿真应该像饮用水一样可获得。这个比喻很强,因为它把仿真从“某个实验室的神秘工具”变成行业公共基础设施。现在许多仿真像未过滤的水,看起来量很大,但喝了会出问题;未来真正推动行业的,是每个机器人研究者都能获得足够高质量、足够可用、足够可验证的仿真环境。

要达到这一点,不能只做仿真器。最后的快问快答里,谢晨强调“仿真不等于仿真器”:仿真器只是物理引擎层,仿真还包括资产、场景、渲染、API、framework、metadata、质检和评价。很多公司一上来就做底层仿真器,反而可能错过真正短缺的资产和场景。光轮的路径是先做高质量资产、场景和工具链,最后再深入底层仿真器。

仿真不等于仿真器

仿真器是必要但不充分条件。具身智能真正缺的是可交互的物理资产、可规模化的场景、可训练的接口、可验证的质量标准,以及能把真实失败带回系统的闭环。

本章小结

Physical Real2Sim 是 EP109 的技术核心。它要求团队把真实世界的物理信息低成本、规模化地带入仿真,并用模型训练和真实部署结果不断校准。好仿真的标准不是视觉真实,而是训练出来的策略能否在真实世界成立。

数据公司、Meta/Scale 与人才组织

前面讲的是机器人数据技术,本章转向数据能力为什么变成大公司战略能力。访谈中,张小珺和谢晨讨论 Meta 高价收购 Scale AI 以及 Alexandr Wang 的角色。这里的重点不是八卦交易本身,而是一个更大的判断:下一阶段 AI 竞争不只拼算力和模型,也拼高质量数据的生产组织能力。

Scale 的价值在访谈中被解释为“数据越卖越贵”,原因是它使用的人越来越好、任务越来越复杂、客户越需要高质量示范和质量控制。对大模型和机器人来说,好数据不再只是低成本标注,而是由顶尖人才、流程、relationship、质检系统和客户理解共同构成。Meta 如果希望在未来 AI 竞争中掌握基础原料,就会想把这种数据能力买到自己体系内。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{meta-scale-data.png}
\caption{Meta 收购 Scale AI 的信号:未来十万亿公司需要掌握 AI 数据能力。自制概念图,依据 00:48:55--00:53:57 对谈内容整理。}
\end{figure}

读图:数据能力为什么从外包变成战略

图中可以看到三层价值:数据生产流程、人类示范和人才网络。早期标注可以外包;当任务变成 agentic、机器人、复杂推理和高质量 RL 环境时,数据生产越来越像核心研发能力。Meta/Scale 的信号是:谁能组织最好的人去定义数据、筛选数据和提升数据 bar,谁就更接近下一阶段模型能力。

好数据是场景多样性和高质量示范的乘积

本节抓住一句关键判断:好数据是两个事的成绩,第一是多样性的场景,第二是高质量的人的示范。对大模型来说,多样性可以是数学、编程、法律、医学等任务场景;人的示范可以是解题步骤、评价标准或高质量考题。对机器人来说,多样性是家庭、酒店、工厂、餐馆、货架、厨房、门把手和不同物体;人的示范则是动作轨迹、任务设计、失败判断和 reward 设计。

更进一步,讲者认为最好的老师不只是示范,而是出题。这个类比能解释为什么数据工作越来越贵:不是找人随便演示一次,而是让人设计能诱导模型进步的问题,提供高质量 feedback,并把失败转成下一轮训练任务。对于机器人,好的数据团队既要懂物理场景,也要懂模型训练,还要能运营大规模人机协作流程。

数据质量公式

在本期语境下,可以把高质量数据理解为:

\[ \mathrm{Data\ Quality}\approx \mathrm{Diversity\ of\ Scenarios}\times \mathrm{Quality\ of\ Human\ Guidance} \]

其中场景多样性决定模型见过多少世界,高质量人类指导决定这些世界是否能变成有效学习信号。两者任一缺失,数据都会变薄。

合成数据当前瓶颈

本节回到合成数据本身。谢晨承认 Sim2Real gap 从第一性原理上一定存在,因为合成和真实本来就不同。关键不是消灭 gap,而是知道 gap 到什么量级时数据有用,以及如何持续减少 gap。这要求数据公司不能只做数据交付,还要能做算法落地、真实部署和评价回环,否则永远不知道缺口在哪里。

合成数据的瓶颈可以分成三段。Real2Sim 段要增强从真实世界拿回来的信息多样性和准确性;Simulation 段要提升底层物理引擎、资产、场景和并行效率;Sim2Real 段要提升训练策略的泛化性和有效性。这也是为什么光轮一边做数据,一边必须理解客户的机器人算法和真实落地。

数据公司不能只停留在交付文件

如果一家合成数据公司只负责生成数据,而客户独自训练模型,那么数据公司很难知道真实 gap 在哪里。要持续提升数据质量,必须参与模型评价、真实部署和失败分析。

Physical Intelligence 的两难

本节讨论访谈中对 Physical Intelligence 的评价。谢晨认为 PI 在具身基础模型上非常领先,但它对仿真有一个两难:外部叙事更强调真实数据,内部又强烈意识到仿真的必要性。这个矛盾会影响人才吸引,因为优秀仿真人才很难加入一个公开不强调仿真的组织。

这段讨论的教学意义在于:仿真不是一个科研小组件,而是技术、工程、算法和运营四件事的结合。科研团队往往擅长算法和论文,但大规模仿真还需要工程化平台、运营流程、人类质检和物理采集。正因为它又重又脏又复杂,才会成为产业链里的独立机会。

术语消化:仿真能力的四件事

能力 具体内容 为什么单靠研究不够
技术 物理引擎、渲染、资产和场景 需要长期底层积累。
工程 大规模平台、工具链、API 和并行效率 训练和客户交付都要求稳定系统。
算法 Real2Sim、Sim2Real、RL 和质量评价 要把数据转成模型收益。
运营 人在环采集、质检、客户反馈和标准化 物理世界信息不可能完全自动获得。

本章小结

Meta/Scale 讨论把 EP109 从机器人扩展到整个 AI 产业:未来竞争会越来越围绕数据生产能力展开。对具身智能尤其如此,因为高质量数据既需要世界多样性,也需要人类示范、物理参数、工程平台和评价闭环。

全球具身智能产业链 Mapping

本章整理谢晨给出的产业链图谱。具身智能之所以会拆成多类公司,是因为它同时要发明“下一代车的平台”和“这个平台上的 L4/L5 算法”。自动驾驶至少有车这个成熟平台;具身智能连平台、本体、传感器、手、模型、数据和场景都在早期。难度过高,就会推动产业链分工。

节目里大致分出四类公司:硬件公司、Foundation Model 公司、垂直场景软硬结合公司、以仿真为中心的基础设施公司。这个分类不是静态标签,而是说明不同公司把风险放在哪里:硬件公司解决本体和供应链,模型公司解决大脑和数据 recipe,落地公司解决场景 ROI,仿真公司解决数据和训练世界。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{embodied-supply-chain-map.png}
\caption{全球具身智能产业链:硬件、基座模型、垂直落地和仿真公司分工。自制概念图,依据 00:55:25--01:09:22 对谈内容整理。}
\end{figure}

读图:四类公司对应四种稀缺资源

硬件层稀缺的是可靠本体、成本和供应链;模型层稀缺的是算力、人才和通用数据 recipe;垂直落地层稀缺的是客户、场景和运营;仿真层稀缺的是高质量物理世界、工具链和评价闭环。具身智能太重,因此短期更像产业生态,而不是单家公司全包。

硬件、模型、落地与仿真

本节把四类公司逐个展开。硬件公司代表是宇树和灵巧手公司,它们把机器人本体带给科研和产业界,某种程度上建立了研究标准。Foundation Model 公司包括 Physical Intelligence、Skild、NVIDIA/GEAR、Google/DeepMind 等,它们追求机器人“大脑”和 scaling recipe。软硬结合落地公司包括 Figure、Tesla Optimus、The Bot Company、DynaRobotics 等,重点是具体垂直场景。仿真公司如光轮和 Genesis,则围绕 Real2Sim、Simulation、Sim2Real 做基础设施。

讲者对宇树的评价很有产业启发:它面向国际学术界提供本体,让论文和学生都围绕宇树机器人形成习惯,再把这种习惯带入产业。这说明硬件层的“标准”不只来自参数,也来自开发者生态、论文生态和人才迁移。对应到仿真层,光轮想成为的也是这种标准:不是一个供应商,而是具身仿真的共同底座。

产业链角色表

角色 核心任务 主要竞争维度
硬件公司 机器人本体、手、传感器和采集设备 成本、可靠性、开发者生态、供应链。
模型公司 机器人基座模型、大脑、VLA 和 scaling recipe 算力、人才、数据金字塔、RL 能力。
落地公司 面向主机厂、仓储、家庭、餐饮等场景交付 客户 ROI、软硬结合、运营和安全。
仿真公司 生成可训练世界,支撑数据与算法闭环 物理资产、solver、API、Sim2Real 成功率。

中美机会差异

上一节是全球产业链,本节看国别结构。谢晨认为美国存在模型层创业机会,因为美国生态更强调产业分工,终端用户对软件、推理和自动化服务的付费能力更强。OpenAI、NVIDIA 这类公司能通过模型、算力和生态拿到很高收入,因此模型层可以成为独立公司。

中国的结构则不同。国内软件和 token 付费能力相对弱,硬件、供应链和整机能力更强,所以许多公司会走软硬结合、端到端交付和硬件销售路线。节目中提到字节、小米、理想等公司更可能适合做“大脑”,因为它们有算力、AI 人才、产品入口、供应链或车辆/机器人场景。这个判断不是说中国没有模型能力,而是说商业模式和产业组织会把模型能力放进更垂直的一体化体系。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{china-us-embodied-opportunity.png}
\caption{中美具身机会差异:美国更有模型层机会,中国更适合大脑+本体+场景整合。自制概念图,依据 01:09:22--01:15:33 对谈内容整理。}
\end{figure}

读图:差异来自付费结构和产业分工

左侧美国更容易出现独立模型层,因为软件付费、推理付费和生态分工支撑模型公司获得收入。右侧中国更容易把大脑、本体和场景整合,因为硬件供应链强、软件单独收费弱、产品公司更需要端到端价值。读图时不要把它理解成技术高低,而要理解成商业结构差异。

数据金字塔与殊途同归

本节说明为什么不同技术路线可能最终收敛。表面上,有团队说自己走真实数据路线,有团队说自己走仿真路线,有团队强调 imitation learning,有团队强调 RL。但谢晨观察到,顶尖客户越来越在内部采用 data pyramid:底层是互联网或通用数据,中间是合成数据和仿真,顶部是少量高质量真实数据。

这个金字塔结构很符合前文逻辑。互联网数据提供世界知识和视觉/语言预训练,合成数据提供可控、多样、可并行的任务环境,真实数据提供 grounding、校准和最终验证。不同团队对 RL、VLA、合成比例和算法架构仍有差异,但“真实 + 合成 co-training”已经成为核心机构的共同认知。

数据金字塔

具身智能可能不会纯靠真实数据,也不会纯靠仿真数据。更稳的路线是:底层通用数据建立世界知识,中层合成/仿真数据扩大任务分布,顶层真实数据做校准、示范和部署验证。

本章小结

具身智能产业链会长期分工。硬件、模型、落地和仿真分别掌握不同稀缺资源;中美差异更多来自商业模式和产业组织;不同路线最终可能都收敛到数据金字塔和真实/合成混合训练。

NVIDIA is a simulation company

上一章讲产业链分工,本章聚焦 NVIDIA。谢晨回忆黄仁勋在内部说过:NVIDIA is a simulation company。这句话的意义不只是营销,而是把 NVIDIA 从“卖 GPU”重新理解为“用计算创造可训练世界”的公司。游戏是服务人类体验的仿真,Omniverse 是服务工业和数字孪生的仿真,Isaac Sim 是服务机器人和物理 AI 的仿真。

NVIDIA 的 three computer problem 也连接了这一点:第一个计算机是数据中心,第二个是端侧物理 AI 设备,第三个是仿真计算机。数据中心训练大模型,端侧机器人和车运行模型,仿真计算机生成物理世界、数据和评估环境。机器人数据荒越严重,第三台计算机越像战略入口。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{nvidia-simulation-company.png}
\caption{NVIDIA is a simulation company:算力、物理引擎、仿真环境和机器人训练连成闭环。自制概念图,依据 01:15:33--01:21:25 对谈内容整理。}
\end{figure}

读图:NVIDIA 的仿真战略连接三类计算

图中左侧是训练和推理算力,中间是物理引擎、渲染、资产和 API,右侧是机器人与自动驾驶部署。NVIDIA 的强处不是单点工具,而是把 GPU、Omniverse、Isaac Sim、PhysX、Warp/Newton 和机器人生态连成基础设施。仿真越成为数据生产方式,算力公司越接近数据公司。

Isaac Sim、MuJoCo 与下一代物理引擎

本节把访谈里的仿真器生态稍微结构化。NVIDIA 的 Isaac Sim 建在 PhysX 和 Omniverse 渲染之上,优势是 GPU、渲染和工业生态;Google/DeepMind 相关的 MuJoCo 长期是机器人研究常用物理引擎,优势是物理和 API,但渲染不是强项。随着端到端 RL 需要大量 GPU 并行,CPU 版 MuJoCo 难以满足吞吐,MJX 和 MuJoCo Warp/Newton 代表了向 GPU 加速、开源生态和统一物理底座演进的方向。

这里最值得学习的不是某个引擎谁赢,而是仿真器会成为生态竞争的一层。底层物理引擎越开源、越高效、越可维护,上层资产、API、数据生成和 RL 平台越能快速发展。光轮这样的公司如果能贡献资产、物理参数和工具链,就会成为这个生态中的重要部分,而不一定要独占底层引擎。

术语消化:仿真栈四层

层级 代表内容 作用
Physics Solver PhysX、MuJoCo、Newton 等 计算力学、碰撞、约束和运动。
Rendering Omniverse 等渲染管线 生成视觉观测和传感器输入。
Sim-ready Assets 可交互资产、场景、机器人本体 提供训练世界的原料。
API/Framework 数据导出、metadata、RL 环境接口 让仿真能被模型训练和评价调用。

合成数据与大模型

本节从机器人扩展到大模型。访谈中谢晨判断,自然语言大模型也越来越依赖合成数据,因为互联网数据趋于穷尽,模型本身可以生成新任务、新解法和新评价。某种意义上,GPT 也是合成数据生成器,它不断产生自然语言并可被用来训练、蒸馏或评估其他模型。

对具身大模型而言,合成数据则更复杂:它不仅需要文本,还需要 3D、机器人视角、多传感器、动作轨迹和物理交互。自然语言合成数据可以依赖模型生成和验证,具身合成数据必须依赖仿真世界和真实物理校准。这也是为什么 EP109 把合成数据讲得比一般大模型讨论更重。

语言合成数据和具身合成数据不是同一难度

语言数据可以主要在符号空间中生成和检查;具身数据必须经过物理世界约束。一个机器人轨迹是否有效,不能只看文本逻辑,还要看接触、力学、安全、执行器和真实部署。

本章小结

NVIDIA 的仿真战略说明,未来 AI 基础设施不只有训练集群和端侧芯片,还包括生成训练世界的仿真计算机。对机器人而言,仿真既是数据生产工具,也是模型评价环境和产业生态入口。

终局:跨宇宙、跨世界、跨本体

本章讨论更远的终局模型。谢晨认为,最终模型应该 cross universe、cross world、cross embodiment,即跨宇宙、跨世界、跨本体。这个说法听起来宏大,但它背后有一个朴素目标:提升泛化性。人类可以从现实到游戏、从厨房到办公室、从手到工具快速迁移;机器人如果只能在一个仿真、一个房间或一个本体上工作,就还不是通用智能。

游戏数据在这里有特殊意义。游戏不一定物理真实,但它提供丰富世界、规则、目标和第一视角交互,适合预训练阶段提升 agent 跨世界能力。DeepMind 等机构大量使用游戏数据,正是因为跨宇宙训练可以让模型习惯在不同规则和观测分布中行动。它不能替代物理 Real2Sim,但能补足更广泛的 world diversity。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{cross-universe-model.png}
\caption{跨宇宙、跨世界、跨本体:终局模型要提升跨环境泛化能力。自制概念图,依据 01:21:25--01:23:28 对谈内容整理。}
\end{figure}

读图:三种跨越分别解决不同泛化问题

跨宇宙解决仿真、游戏和现实之间的 domain shift;跨世界解决家庭、工厂、酒店、餐馆等环境差异;跨本体解决不同机器人身体和动作空间差异。读图时要注意,三者不是口号,而是三类数据分布差异。终局模型要能在这些分布之间抽取任务本质。

术语消化:三种跨越

能力 含义 训练要求
跨宇宙 在游戏、仿真和真实世界之间迁移 多样世界数据、规则学习和 domain adaptation。
跨世界 在不同任务环境之间迁移 场景资产、任务分布和真实反馈要足够广。
跨本体 在不同机器人身体之间迁移 动作空间、传感器、本体几何和控制约束要建模。

还在 GPT-1 阶段

本节回到现实阶段判断。谢晨认为具身智能整体仍在 GPT-1 阶段,意思不是完全没有能力,而是还没找到稳定 scaling law 配方。特斯拉 FSD 的类比很有帮助:早期不断加数据不一定持续提升,直到端到端路线打通,数据、算力和模型扩张才开始更稳定地带来能力提升。具身智能还没有出现这个明确时刻。

但他并不悲观。原因有三点:今天进入具身智能的创始团队和科学家密度远高于早期自动驾驶;资本和产业关注度更高;大模型和自动驾驶已经提供了 scaling、transformer、数据飞轮、RL 和端到端训练的经验。换句话说,当前是早期,但不是从零开始的早期。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{embodied-gpt1-stage.png}
\caption{具身智能仍在 GPT-1 阶段:还没找到稳定 scaling law,数据 recipe 仍在探索。自制概念图,依据 01:23:28--01:28:21 对谈内容整理。}
\end{figure}

读图:GPT-1 阶段指的是 recipe 未收敛

图中最重要的是“unknown recipe”。行业知道需要数据、算力、模型、仿真和 RL,但还不知道怎样的组合会稳定提升真实机器人能力。与其说 GPT-1 阶段意味着能力弱,不如说它意味着还没有形成 GPT-3/ChatGPT 那样清晰的规模化路径。

Scaling law moment

具身智能的 scaling law moment 不是融资、demo 或单点模型发布,而是团队发现:在一套架构和数据管线下,继续增加高质量数据、算力和环境,真实任务能力会可预测地提升。

Progress 比融资更健康

本节保留访谈后半段的创业者判断。谢晨担心行业过分关注融资金额和估值,而忽略真实 progress。从 RL 角度看,如果团队的 reward model 变成“演讲、做 demo、吸引投资人”,行为就会被错误奖励牵引;更健康的 reward model 是服务客户、创造价值、收回付费,并用客户反馈持续改进产品。

这段话和技术主线其实一致:不管是数据、仿真还是公司,都需要真实反馈。对模型而言是真实部署反馈;对公司而言是客户付费和复购反馈;对行业而言是真实 progress,而不是 narrative progress。访谈中光轮从自动驾驶转向具身智能,也经历了从“我懂仿真”到“从具身本科重新学习”的过程,这说明高维问题不能直接套低维经验。

行业泡沫的一个信号

如果团队主要优化融资叙事、demo 观感和估值,而不是客户价值、模型提升和真实部署,reward model 就偏了。对具身智能这样重工程行业,错误奖励会比短期技术失败更危险。

本章小结

具身智能的终局是跨宇宙、跨世界和跨本体泛化;当前阶段仍在寻找 scaling law。行业也许会很快找到 recipe,但前提是把 reward 对准真实 progress:真实模型提升、真实客户价值和真实部署反馈。

总结与延伸

本节把整期访谈收束成一套可复用框架。EP109 的核心不是“仿真公司很重要”,而是解释为什么物理世界 AI 需要一种新的数据生产方式。互联网数据让语言模型起飞,车队数据让自动驾驶形成飞轮;具身智能没有现成世界数据,就必须用 Real2Sim、合成数据、仿真环境、少量真实反馈和评价系统去主动建造训练世界。

从技术角度看,好的合成数据必须经历三次验证。第一,它是否覆盖真实任务中最稀缺、最危险、最影响模型的变量;第二,它是否能通过评价系统证明模型收益;第三,它是否能在真实机器人部署中被校准。只通过第一关的数据是场景库,通过第二关的数据是训练数据,通过第三关的数据才接近可 scale 的基础设施。

把 EP109 放进张小珺 AI 队列

EP109 与 EP121 DeepMind 机器人、EP132 星海图机器人、EP134 数据综述形成连续线索:EP121 讲机器人模型和跨本体,EP132 讲整机与 Data Recipe,EP134 讲 AI 数据价值,EP109 则把具身智能的数据生产基础设施拆成 Real2Sim、仿真、合成数据、评价和产业分工。

五个关键 takeaways

  1. 合成数据不是替代真实数据,而是把真实稀缺问题参数化、规模化,并通过真实反馈校准。
  2. 具身智能比自动驾驶更依赖物理交互,因此数据单位从 frame 变成 interaction。
  3. 好仿真不是画面真实,而是能支持模型训练、RL 并行和真实机器人落地。
  4. 数据公司会越来越像核心 AI 基础设施公司,因为好数据需要人才、流程、质检、场景和客户理解。
  5. 具身智能仍在 GPT-1 阶段,真正的 scaling law moment 要看真实任务能力能否随数据、算力和环境稳定提升。

工作流启发

如果把 EP109 转成一个团队内部 checklist,可以按四个问题自检。第一,我们有没有明确的目标模型指标,而不是只是在生成数据?第二,我们的仿真资产是否包含可交互的物理参数,而不只是视觉外观?第三,我们是否有真实部署或客户反馈,让数据团队知道 gap 在哪里?第四,我们的 reward model 是 progress、复购和真实任务能力,还是 demo、融资和叙事?

这也是本期最适合留下来的实践经验:做合成数据和仿真,必须从终局使用者反推。机器人算法团队需要什么接口,RL 需要什么 environment,客户需要什么场景,真实部署暴露什么失败,数据生产系统就应该围绕这些问题演化。

拓展阅读

  • 对机器人世界模型、跨本体和 Gemini Robotics 感兴趣,可对照 EP121 DeepMind 谭捷访谈。
  • 对机器人整机、供应链和 Data Recipe 感兴趣,可对照 EP132 星海图高继扬访谈。
  • 对 AI 数据价值、Meta/Scale 和数据公司战略感兴趣,可对照张小珺 AI 数据主题访谈。