跳转至

Ep121 2O281Zy5Aze

LaTeX 源码 · 备用 PDF · 观看视频

导读:机器人为什么既近又远

本节先说明这期的阅读方式。谭杰是 Google DeepMind Robotics 团队高级研究科学家和技术负责人,他的视角很适合拆开机器人行业里常被混在一起的几个问题:仿真如何改变真实控制,强化学习解决了什么,大模型给机器人补了什么,机器人基座模型是否已经独立成学科,Gemini Robotics 1.5 的 Motion Transfer 在解决什么,以及为什么高质量数据仍是最硬的瓶颈。

本期最重要的平衡感是:机器人进展很快,但离大规模落地还远。谭杰一方面认为硅谷普遍把机器人视为即将发生的重大变革,也承认过去一年模型泛化有意外进展;另一方面他反复提醒,网上最好的 demo 往往不是代表性能力,现实落地从论文、live demo 到生产系统可能隔着多年距离。这个平衡让本期非常适合作为机器人领域的“冷静乐观”笔记。

本期核心命题

机器人不是单一模型问题,而是大脑、小脑、本体、数据、仿真、触觉、安全和落地场景共同作用的综合问题。大模型带来语言理解和 common sense,强化学习解决部分底层控制,世界模型和合成数据试图补足泛化,但高质量真实/仿真数据仍是核心瓶颈。

视觉策略说明

本视频是固定访谈画面,没有 slides、白板或产品演示。正文只使用封面作为来源识别,正文图像全部为自制概念图,用来解释 Sim2Real、VLA、Gemini Robotics 1.5、Synthetic Data、世界模型 V-L-V、触觉和中美机器人分工。

本章小结

EP121 的主线不是“机器人马上进入家庭”,而是解释为什么机器人领域已经出现范式信号、为什么落地仍慢、以及哪些问题决定接下来五到十年的路线。

从图形学到机器人:仿真里的控制如何进入真实世界

本章从谭杰的研究路径开始。他博士做计算机图形学,尤其是 physics-based character animation,即在仿真环境里让人形或动物形态自然行走。这个方向和机器人高度相似:图形学是在 simulation 里做机器人,机器人是在真实世界里做图形学。区别在于,仿真里可以拿到所有状态信息,真实世界则充满噪声、摩擦和不确定性。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{graphics-to-robotics.png}
\caption{从图形学到机器人:在仿真里做机器人,再迁移到真实世界。自制概念图,依据 00:02:00--00:13:06 对谈内容整理。}
\end{figure}

读图:图形学提供了“先在仿真里学会”的路线

图中从图形学和物理动画开始,经由强化学习学习步态,再通过 Sim2Real 迁移到真实机器人。谭杰早期工作的关键,就是把仿真里的控制能力带到四足机器人真实运动中。

Sim2Real 与强化学习的第一次范式转移

本节先看“身体怎么动”的问题。大模型出现之前,机器人领域已经发生过一次重要转向:让机器人先在仿真里通过强化学习学会运动,再迁移到真实硬件。

Sim2Real 是 simulation-to-real 的缩写,即先在仿真环境中训练策略,再迁移到真实机器人。谭杰提到他在 Google 的早期工作 Sim2Real Learning Agile Locomotion for Quadruped Robots,用深度强化学习解决四足机器人敏捷运动。强化学习是让智能体在环境中试错,通过 reward 信号改进行为的训练方法;PPO 是其中一种常用算法。

第一次范式转移

过去机器人运动控制高度依赖传统控制和 Model Predictive Control;过去五到十年,强化学习 + Sim2Real 基本改变了步态和 locomotion 领域,让跑、跳、翻、打拳等运动能力快速普及。

大模型带来的第二次范式转移

接下来再看“机器人是否懂任务”的问题。运动控制解决的是身体,大模型补上的则是语言、常识和计划,这也是为什么谭杰把大模型比作大脑。

大模型出现之前,很多机器人没有 common sense,也不懂自然语言。你要机器人做咖啡,必须写程序或拆成非常具体的控制指令。大模型带来的改变是:机器人可以理解自然语言,拆解任务步骤,知道“做咖啡”大概需要杯子、水、咖啡、加热和倒入等常识。谭杰用大脑和小脑类比:大模型更像大脑,负责思维、语言、计划;强化学习更像小脑,负责平衡、运动和执行。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{brain-cerebellum-robot.png}
\caption{大脑与小脑:多模态模型负责认知,强化学习负责执行。自制概念图,依据 00:02:00--00:13:06 对谈内容整理。}
\end{figure}

读图:机器人需要大脑,也需要小脑

大脑负责语言理解、常识和任务规划;小脑负责步态、平衡、抓取和底层控制。只有大脑,机器人会“知道该做什么但做不好”;只有小脑,机器人会“能动但不懂目标”。

本章小结

谭杰的研究路径解释了机器人过去十年的两个转折:第一,强化学习和 Sim2Real 改变了运动控制;第二,大模型把语言、常识和计划带入机器人。今天的机器人研究要同时处理大脑和小脑。

机器人基座模型是不是独立学科:So far, not yet

上一章讲两次范式转移,本章讨论一个争议:机器人基座大模型是否应被视作独立于大模型的学科?谭杰的回答很克制:so far, not yet。当前多数机器人智能仍依赖多模态大模型,只是在其上补足 robot action 输出、动作数据和阶段性 fine-tuning。未来如果遇到新的 data format、世界模型或控制瓶颈,它可能变成更独立的学科,但现在还没有质变。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{vla-action-gap.png}
\caption{VLA 补上 Action 输出:多模态模型要控制机器人,必须学会输出动作。自制概念图,依据 00:13:06--00:23:44 对谈内容整理。}
\end{figure}

读图:从 VLM 到 VLA,关键是动作数据

Vision 和 Language 进入多模态模型,原本输出文本和计划;机器人需要的是动作,因此要加入 Action Data,让模型从 VLM 变成 VLA。这里的动作不是抽象文字,而是机器人关节、轨迹、末端执行器和控制信号。

VLA、泛化和成功率

本节把“动作输出”落到可用性。VLA 的意义不只是把 action 加进名字,而是让机器人从语言和视觉真正走向可执行动作。

VLA 是 Vision-Language-Action,即视觉、语言和动作模型。它希望把“看见环境”“理解指令”和“输出动作”放进同一个模型或系统中。当前模型在简单 pick-and-place 等任务上成功率很高,但对精细操作,例如拉拉链、精确抓取和方向控制,成功率可能只有三四成。这个数字在研究视频里有进展意义,但在现实生活里不可用。

研究成功率与产品可用性不同

在真实世界里,30%--40% 成功率的精细操作几乎不可用。用户需要的是稳定、可恢复、可解释和可安全失败的系统,而不只是一次视频里完成任务。

从 idea 到 demo 到落地

谭杰用自动驾驶做类比:从一个想法到论文 prototype 可能只需半年到一年;从论文到敢做 live demo 可能要一两年;从 live demo 到真正落地可能要五到十年。机器人比自动驾驶更难,因为动作空间更大、任务更多、物理交互更复杂。自动驾驶是动作输出相对有限的垂直场景,仍然花了十多年才接近落地。

从研究到落地的阶段表

阶段 常见产物 主要风险
Idea 研究想法、训练 recipe、初步假设 可能只在很窄条件下成立。
Prototype 论文、离线评测、录制视频 假设很多,失败样本被过滤。
Live demo 现场演示、有限任务成功 稳定性和异常恢复仍不足。
Pilot 小规模客户或场景试点 成本、维护、安全和运营压力出现。
Production 可复制商业部署 需要可靠硬件、数据飞轮和服务体系。

机器人时间尺度

研究突破和商业落地不是同一件事。机器人需要从任务成功率、硬件可靠性、安全、成本、维护、数据飞轮和场景价值上同时过线,才能从 demo 进入真实生产。

本章小结

机器人基座模型目前更像多模态大模型的延伸,而不是完全独立学科。真正决定它是否独立的,是未来是否需要新的数据格式、世界模型、控制范式和跨本体泛化机制。

机器人数据瓶颈:真实世界太复杂,数据太贵

前面说模型还没有完全独立,本章进入机器人最硬的问题:数据。谭杰认为机器人最大问题是数据。机器人处在复杂的 unstructured environment 中,任何事情都可能发生;动作轨迹昂贵,长尾失败难覆盖,硬件本体不同还会导致数据难以共享。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{robotics-data-bottleneck.png}
\caption{机器人数据瓶颈:非结构环境、长尾失败和动作反馈让数据特别贵。自制概念图,依据 00:23:44--00:27:52 对谈内容整理。}
\end{figure}

读图:机器人数据不是普通视频数据

真实环境不可控,动作轨迹采集昂贵,失败样本难覆盖,跨本体有硬件差异,精细操作成功率低。高质量数据因此成为机器人从 demo 到泛化的核心瓶颈。

为什么几百小时不够验证 scaling

本节解释为什么机器人数据问题比普通视频或文本数据更难。训练机器人不是只收集“看起来相关”的视频,而是要收集带动作、结果、失败和恢复路径的数据。

谭杰提到,在机器人上如果只有几百小时数据,可能无法验证 scaling;你可能需要几万小时数据,才能看到训练 recipe 是否真的 work。这个要求对创业团队和投资人都很残酷,因为初期小钱小数据很难证明长期路线,而机器人又特别需要长期信仰和大投入。

小数据 demo 的误导

几十小时或几百小时数据可能做出漂亮 demo,但不足以证明泛化。机器人真正需要的是跨场景、跨物体、跨本体、跨失败模式的高质量数据。

特斯拉路线为什么难复制到通用机器人

特斯拉汽车有用,所以每天产生真实驾驶数据,数据飞轮能转起来。许多机器人硬件虽然能采数据,但还没有达到“本身有用”的阈值,因此数据飞轮转不起来。这是为什么不能简单说“中国有硬件所以能复制特斯拉路线”:硬件必须先进入真实使用,数据才有持续回流。

机器人像几岁小孩:能力不均衡

本节补充一个很容易被忽视的判断:机器人能力不是均匀长大的。谭杰用小孩做类比,认为机器人的 locomotion 已经很强,甚至某些运动能力超过成年人;但 manipulation,尤其是灵巧手操作,可能还像两三岁小孩,能大概理解指令、尝试几次,但抓取不稳,精细动作更难。

能力不均衡:Locomotion vs Manipulation

能力 当前状态 为什么不同步
Locomotion 跑、跳、平衡和步态已经进展很快 强化学习和 Sim2Real 在过去五年基本解决了许多运动控制问题。
普通抓取 能完成简单抓放和跟随指令 需要视觉、目标理解和粗控制,但容错相对高。
灵巧手操作 仍然很难,很多任务不稳定 多指协同、触觉、接触力和材质反馈都很复杂。
认知规划 大模型带来常识和任务拆解 但计划仍要和真实动作成功率耦合。

本章小结

机器人领域的第一性问题仍是高质量数据。没有足够真实、足够多样、足够可验证的数据,就无法判断模型是否能 scale,也无法从 demo 走向可用产品。

Gemini Robotics 1.5:Motion Transfer 与跨本体迁移

本章进入节目标题里的 Gemini Robotics 1.5。谭杰提到一个关键方法叫 motion transfer,即把动作能力从一种机器人或本体迁移到另一种机器人或本体。跨本体是机器人泛化的核心问题之一,因为不同机器人有不同自由度、不同关节、不同手、不同传感器和不同动力学。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{gemini-robotics-15-loop.png}
\caption{Gemini Robotics 1.5 闭环:从视觉语言到动作,再用 Motion Transfer 泛化到新本体。自制概念图,依据 00:27:52--00:47:32 对谈内容整理。}
\end{figure}

读图:Motion Transfer 是跨本体的桥

自然语言指令和视觉状态进入 Gemini,模型生成计划和动作;Motion Transfer 让动作从一个机器人迁移到另一个机器人;最终机器人执行并产生新的反馈。这里的难点是本体不同,动作不能直接复制。

跨本体为什么难

跨本体不是简单把一个动作文件拷贝到另一台机器人。不同机器人身高、手臂长度、关节限制、力矩、末端执行器和传感器都不同。一个 humanoid 的动作迁移到四足机器人或机械臂,会遇到几何、动力学和控制约束差异。Motion Transfer 的价值在于把“任务意图”和“运动模式”从具体硬件中抽象出来。

跨本体不是把数据“混在一起”

如果不处理本体差异,把不同机器人轨迹直接混合可能会引入冲突信号。跨本体迁移要区分任务意图、运动语义、控制空间和硬件约束,否则模型学到的可能只是噪声。

跨本体泛化

跨本体泛化要求模型理解任务本质,而不只是记住某台机器人的动作轨迹。它是机器人从专用硬件走向通用能力的重要台阶。

Synthetic Data:真实数据不足时怎么办

本节讨论数据瓶颈的一个关键补法。既然真实机器人数据昂贵、慢、危险且长尾不足,合成数据和仿真就变成几乎绕不开的选择。

谭杰最后的关键 bet 是相信 synthetic data 的价值:光靠 real data 解决不了机器人。Synthetic data 即合成数据,通常来自仿真环境、程序生成场景、自动化轨迹和扰动采样。它的优势是规模大、可控、可覆盖长尾;缺点是 sim-to-real gap,即仿真和真实之间仍有差距。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{synthetic-data-loop.png}
\caption{Synthetic Data 闭环:真实数据不足时,用仿真生成大量可控训练样本。自制概念图,依据 00:47:32--01:03:48 与结尾 BAT 整理。}
\end{figure}

读图:合成数据不是替代真实,而是补足真实

真实任务定义目标,仿真环境生成场景,合成轨迹提供大量样本,训练后仍要回到真实评测。真实评测暴露 sim-to-real gap,再反馈到仿真和训练。

本章小结

Gemini Robotics 1.5 的核心价值在于把多模态模型、动作输出和跨本体迁移放进同一个机器人系统中。Motion Transfer 和 Synthetic Data 都服务于同一个目标:让机器人能力从单一硬件和单一任务中泛化出去。

世界模型、触觉与灵巧手

前面讨论动作迁移和数据,本章进入两个更底层的能力:世界模型与触觉。谭杰把世界模型描述为 Vision-Language-Vision:输入当前视觉和语言/动作,生成下一帧或未来视觉状态。触觉则在灵巧手场景里变得重要,因为精细抓取、滑动、材质和接触力无法只靠视觉稳定解决。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{world-model-vlv.png}
\caption{世界模型 V-L-V:Vision + Language 输入,预测下一帧视觉状态。自制概念图,依据 01:03:48--01:08:29 对谈内容整理。}
\end{figure}

读图:世界模型是“预测动作后果”

当前画面和语言目标进入 World Model,模型预测下一帧或未来视觉状态,Policy 再据此选择动作。它不是只生成漂亮视频,而是帮助机器人想象“如果我这么做,世界会怎样”。

世界模型为什么重要

本节把世界模型从“视频生成”拉回机器人控制。机器人需要的是预测行动后果,而不是生成一段看起来合理的画面。

机器人需要在行动前预测后果。抓杯子会不会倒,拉链往哪个方向拉,手碰到布料会怎样变形,这些都需要对世界状态变化建模。世界模型如果足够强,可以减少真实试错成本,提高规划和恢复能力。

触觉为什么重新重要

接下来讨论传感器层面的变化。过去触觉常被认为不重要,部分原因是硬件能力没有到需要精细触觉的阶段;一旦进入灵巧手,触觉就从锦上添花变成基础输入。

谭杰提到,过去觉得触觉不重要,是受限于硬件;如果有灵巧手,触觉就非常重要。普通夹爪可以靠视觉和粗动作完成不少任务;灵巧手则需要知道接触力、滑动、材质、抓取稳定性和指尖状态。没有触觉,很多精细 manipulation 很难可靠完成。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{tactile-dexterous-hand.png}
\caption{触觉与灵巧手:硬件越灵巧,触觉越重要。自制概念图,依据 01:08:29--01:17:35 对谈内容整理。}
\end{figure}

读图:触觉价值随本体复杂度上升

普通夹爪主要处理位置和闭合;灵巧手要处理多指协同、接触力、滑动、材质和抓取稳定性。硬件越接近人的手,触觉越不再是可有可无的传感器。

本章小结

世界模型解决“预测后果”,触觉解决“精细接触”。二者都指向同一件事:机器人要从粗糙动作走向可靠操作,必须理解物理世界的变化和接触。

通用机器人路线:从 Automation 到 Superhuman

本章总结谭杰对机器人发展阶段的划分。他提到五个阶段:Automation、Teleoperation、Narrow Generalist、Home Generalist、Superhuman Capability。这个路线图有助于避免把所有机器人能力混成一个问题。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{robot-generalist-stages.png}
\caption{通用机器人阶段:从固定自动化到超人能力的长期路线。自制概念图,依据 01:17:35--02:06:16 对谈内容整理。}
\end{figure}

读图:每一阶段的“通用性”都不同

Automation 是固定规则,Teleoperation 是硬件可用但人远程控制,Narrow Generalist 是窄域智能泛化,Home Generalist 是家庭多任务通用,Superhuman 是在某些能力上超越人类。不要把窄域泛化误读成家庭通用。

Specialist 与 Generalist

早期落地可能仍在制造、物流、超市、折衣服、餐巾等垂直场景。垂直 specialist 更容易找到需求、ROI 和可控环境。但如果真正 generalist 成型,它能做 specialist 的任务,还能做更多任务,许多 specialist 会被压缩。问题在于 generalist 需要更久时间和更多数据。

不要用最终形态否定中间商业化

通用人形机器人可能是长期目标,但短期垂直场景仍可能创造价值。专业化路线和通用路线不是非此即彼,二者可能并行很多年。

安全问题不是儿戏

谭杰明确说需要关注 AI safety 和 robot safety。当 AI 或机器人能自我迭代时,人类会面临生存问题。Google DeepMind 有 Responsibility and Safety Council,会审查模型和机器人对社会的影响以及安全后果。最坏情况下,如果机器人能力超过安全理解,就应该停下能力扩张,让安全研究追上。

机器人安全原则

能力和安全必须齐头并进。每个发展阶段都要做相应安全研究;如果能力进展超过安全理解,应该暂停能力扩张,让 safety catch up。

为什么机器人容易被高估

本节补上谭杰对行业情绪的提醒。机器人最容易被高估,是因为公众看到的常常是最好的 demo:团队可能拍了十遍,选出最好的一遍发布;视频里没有呈现失败次数、环境假设、人工重置、任务边界和安全接管。观众容易把“最优样本”误认为“稳定能力”,从而以为明年就能买到家用人形机器人。

Demo 视频的证据边界

一个机器人视频能证明“这件事在某些条件下发生过”,但不能证明它具备可部署能力。要判断落地,需要看重复成功率、失败恢复、环境变化、任务多样性、成本、维护和安全边界。

谭杰的态度是兴奋但冷静:机器人确实在加速,落地场景也开始出现;但“能干活的 humanoid 机器人”现在仍是一片荒漠。真正应该避免的是同时犯两个错误:高估短期能力,低估长期影响。

正确的时间感

短期看,机器人离家庭通用还远;中期看,垂直场景可能先落地;长期看,一旦 generalist 真正形成,specialist 的生存空间会被压缩。

本章小结

机器人路线应该分阶段看。短期是窄域泛化和垂直落地,中期是家庭 generalist,长期才是超人能力。安全问题必须从早期就进入研究流程。

中美机器人分工:硬件、信仰和数据飞轮

本章回到中美视角。谭杰认为中国硬件发展很快,宇树、智元、星海图等公司代表中国在本体、供应链和制造上的强项;美国/硅谷更强在长期投入、模型大脑、研究信仰和算力。理想状态下,中美应更好合作:美国的智能发展和中国的硬件制造互补。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{china-us-robotics-split.png}
\caption{中美机器人分工:美国更强智能范式,中国更强硬件与供应链。自制概念图,依据 01:17:35--02:06:16 对谈内容整理。}
\end{figure}

读图:硬件强不自动等于数据飞轮强

中国强在硬件、本体、供应链和制造;美国/硅谷强在长期研究、模型大脑、算力和愿意为远期愿景投入。机器人需要两者结合,但硬件必须先有实际用途,数据飞轮才会转起来。

硅谷信仰与国内短周期压力

本节把技术路线转到资源环境。机器人需要长期数据和长期工程投入,因此不同地区的资本耐心、硬件能力和组织文化,会直接影响路线能不能跑出来。

谭杰说,硅谷愿意相信看起来 ambitious、短期没有结果的长期方向,可以投钱十年;国内更倾向短期落地、盈利和快速发展。机器人和大模型都需要烧很多钱、采很多数据、做长期试验。如果初期只给很少资源,很难验证 scaling。

短周期压力会伤害长期验证

机器人许多路线不是“先给一点数据看效果,再决定是否投入”就能验证的。若初期数据量太小,模型甚至无法显现 scaling 规律,团队可能会错误地放弃长期正确方向。

Google 路线、Waymo 路线与特斯拉路线

张小珺提出一个类比:Google 的机器人路线可能像 Waymo,强调大脑和系统;国内硬件公司可能像 Tesla,希望硬件部署带来数据。谭杰提醒,Tesla 的车本身有用,因此数据飞轮能转;当前很多机器人硬件还没有达到有用阈值,不能简单类比 Tesla。

数据飞轮成立的前提

前提 含义 机器人中的难点
产品有用 用户愿意真实使用,而不只是看 demo 很多机器人还未达到日常可用阈值。
场景高频 使用频率足以产生大量数据 家庭和开放场景长尾太多。
反馈可记录 成功、失败和接管能被结构化记录 操作失败原因可能来自视觉、力控、规划或硬件。
回流可训练 数据能进入训练和评测闭环 跨本体和隐私/安全都增加成本。

本章小结

中美机器人分工不是谁替代谁,而是硬件和智能的互补。真正的挑战是让硬件进入有用场景,形成数据飞轮,并用长期投入把模型、合成数据和真实评测接起来。

术语消化:本期关键词索引

术语 一句话解释 在本期中的作用
Robotics 机器人学,研究感知、控制、规划和实体执行 全片主题。
Embodied AI 具身智能,智能体在环境中感知和行动 中文语境常用,但谭杰更倾向说机器人。
Sim2Real 从仿真训练迁移到真实世界 谭杰早期范式转移的核心。
Reinforcement Learning 强化学习,通过 reward 试错优化策略 解决 locomotion 和控制的重要方法。
PPO Proximal Policy Optimization,常用强化学习算法 谭杰早期工作采用的技术背景之一。
MPC Model Predictive Control,模型预测控制 传统机器人控制路线代表。
VLM Vision-Language Model,视觉语言模型 能看图和理解语言,但通常不直接输出动作。
VLA Vision-Language-Action,视觉语言动作模型 机器人基座模型的重要形式。
Motion Transfer 动作迁移,把动作能力迁到不同本体 Gemini Robotics 1.5 的关键机制之一。
World Model 预测世界状态变化的模型 帮助机器人规划动作后果。
V-L-V Vision-Language-Vision 谭杰描述世界模型的一种方式。
Synthetic Data 合成数据,通常来自仿真或程序生成 弥补真实机器人数据不足。
Tactile Sensing 触觉感知,测量接触力、滑动和材质 灵巧手和精细操作的重要输入。
Dexterous Hand 灵巧手,多指复杂操作本体 触觉和 manipulation 的难点集中区。
Generalist 通用型机器人,可跨任务泛化 长期目标,会压缩 specialist。
Specialist 专用型机器人,解决特定垂直任务 短期更容易落地。

本章小结

本期术语表明,机器人不是单个模型名,而是一组横跨仿真、动作、世界模型、触觉、硬件和安全的系统问题。理解术语之间的关系,比追逐单个 demo 更重要。

总结与延伸

核心结论

本节把全篇的机器人判断压缩成检查表。读者可以用它来评估一个机器人 demo 或公司叙事:它解决的是大脑、小脑、数据、本体、触觉、安全,还是只展示了其中一块?

  1. 机器人过去十年的第一范式转移,是强化学习和 Sim2Real 改变 locomotion。
  2. 大模型带来第二范式转移,让机器人获得语言理解、常识和计划能力。
  3. 机器人基座模型目前仍主要是多模态大模型加动作数据和 fine-tuning,尚未完全独立。
  4. 高质量数据是机器人当前最重要瓶颈,几百小时数据不足以验证 scaling。
  5. Gemini Robotics 1.5 的 Motion Transfer 试图解决跨本体泛化。
  6. Synthetic Data 是谭杰认为必须相信的关键方向,光靠真实数据不够。
  7. 世界模型的价值在于预测动作后果,而不只是生成视频。
  8. 灵巧手让触觉重新重要,因为精细 manipulation 需要接触信息。
  9. 通用机器人会经历从固定自动化到超人能力的长期阶段。
  10. 中美机器人最理想的路径是智能范式和硬件供应链互补。

开放问题

本节保留开放问题,是因为本期讨论的许多技术路线仍处在快速变化阶段。机器人行业最需要的不是单个答案,而是持续跟踪哪些变量真的改善:数据规模、跨本体迁移、触觉硬件、世界模型和安全评测。

  • 机器人基座模型什么时候会真正独立于多模态大模型?
  • Motion Transfer 能否在足够多本体之间稳定工作?
  • Synthetic Data 如何缩小 sim-to-real gap?
  • 世界模型是视觉预测更重要,还是动作/状态预测更重要?
  • 触觉硬件何时能规模化进入灵巧手数据飞轮?
  • 通用人形机器人和垂直 specialist 会并存多久?
  • 机器人 safety 应该如何在能力快速增长前先行?

拓展阅读

  • Sim2Real Learning Agile Locomotion for Quadruped Robots:理解强化学习如何迁移到真实四足机器人。
  • Robot Transformer 系列:RT-1、RT-2、RT-X 等工作。
  • Gemini Robotics / Gemini Robotics 1.5:Google DeepMind 机器人模型路线。
  • EP132 高继扬访谈:星海图、Waymo/Momenta 和具身智能生产化。
  • EP134 数据综述:机器人数据、Recipe 和数据定价。

最后的判断

机器人最难的不是“让模型看懂一句话”,而是让一个实体系统在真实世界中稳定行动。大模型给了机器人大脑,强化学习给了部分小脑,合成数据和世界模型试图补足经验,但真正落地还需要高质量数据、可靠硬件、触觉、安全和长期耐心。