Ep121 2O281Zy5Aze
导读:机器人为什么既近又远
本节先说明这期的阅读方式。谭杰是 Google DeepMind Robotics 团队高级研究科学家和技术负责人,他的视角很适合拆开机器人行业里常被混在一起的几个问题:仿真如何改变真实控制,强化学习解决了什么,大模型给机器人补了什么,机器人基座模型是否已经独立成学科,Gemini Robotics 1.5 的 Motion Transfer 在解决什么,以及为什么高质量数据仍是最硬的瓶颈。
本期最重要的平衡感是:机器人进展很快,但离大规模落地还远。谭杰一方面认为硅谷普遍把机器人视为即将发生的重大变革,也承认过去一年模型泛化有意外进展;另一方面他反复提醒,网上最好的 demo 往往不是代表性能力,现实落地从论文、live demo 到生产系统可能隔着多年距离。这个平衡让本期非常适合作为机器人领域的“冷静乐观”笔记。
本期核心命题
机器人不是单一模型问题,而是大脑、小脑、本体、数据、仿真、触觉、安全和落地场景共同作用的综合问题。大模型带来语言理解和 common sense,强化学习解决部分底层控制,世界模型和合成数据试图补足泛化,但高质量真实/仿真数据仍是核心瓶颈。
视觉策略说明
本视频是固定访谈画面,没有 slides、白板或产品演示。正文只使用封面作为来源识别,正文图像全部为自制概念图,用来解释 Sim2Real、VLA、Gemini Robotics 1.5、Synthetic Data、世界模型 V-L-V、触觉和中美机器人分工。
本章小结
EP121 的主线不是“机器人马上进入家庭”,而是解释为什么机器人领域已经出现范式信号、为什么落地仍慢、以及哪些问题决定接下来五到十年的路线。
从图形学到机器人:仿真里的控制如何进入真实世界
本章从谭杰的研究路径开始。他博士做计算机图形学,尤其是 physics-based character animation,即在仿真环境里让人形或动物形态自然行走。这个方向和机器人高度相似:图形学是在 simulation 里做机器人,机器人是在真实世界里做图形学。区别在于,仿真里可以拿到所有状态信息,真实世界则充满噪声、摩擦和不确定性。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{graphics-to-robotics.png}
\caption{从图形学到机器人:在仿真里做机器人,再迁移到真实世界。自制概念图,依据 00:02:00--00:13:06 对谈内容整理。}
\end{figure}
读图:图形学提供了“先在仿真里学会”的路线
图中从图形学和物理动画开始,经由强化学习学习步态,再通过 Sim2Real 迁移到真实机器人。谭杰早期工作的关键,就是把仿真里的控制能力带到四足机器人真实运动中。
Sim2Real 与强化学习的第一次范式转移
本节先看“身体怎么动”的问题。大模型出现之前,机器人领域已经发生过一次重要转向:让机器人先在仿真里通过强化学习学会运动,再迁移到真实硬件。
Sim2Real 是 simulation-to-real 的缩写,即先在仿真环境中训练策略,再迁移到真实机器人。谭杰提到他在 Google 的早期工作 Sim2Real Learning Agile Locomotion for Quadruped Robots,用深度强化学习解决四足机器人敏捷运动。强化学习是让智能体在环境中试错,通过 reward 信号改进行为的训练方法;PPO 是其中一种常用算法。
第一次范式转移
过去机器人运动控制高度依赖传统控制和 Model Predictive Control;过去五到十年,强化学习 + Sim2Real 基本改变了步态和 locomotion 领域,让跑、跳、翻、打拳等运动能力快速普及。
大模型带来的第二次范式转移
接下来再看“机器人是否懂任务”的问题。运动控制解决的是身体,大模型补上的则是语言、常识和计划,这也是为什么谭杰把大模型比作大脑。
大模型出现之前,很多机器人没有 common sense,也不懂自然语言。你要机器人做咖啡,必须写程序或拆成非常具体的控制指令。大模型带来的改变是:机器人可以理解自然语言,拆解任务步骤,知道“做咖啡”大概需要杯子、水、咖啡、加热和倒入等常识。谭杰用大脑和小脑类比:大模型更像大脑,负责思维、语言、计划;强化学习更像小脑,负责平衡、运动和执行。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{brain-cerebellum-robot.png}
\caption{大脑与小脑:多模态模型负责认知,强化学习负责执行。自制概念图,依据 00:02:00--00:13:06 对谈内容整理。}
\end{figure}
读图:机器人需要大脑,也需要小脑
大脑负责语言理解、常识和任务规划;小脑负责步态、平衡、抓取和底层控制。只有大脑,机器人会“知道该做什么但做不好”;只有小脑,机器人会“能动但不懂目标”。
本章小结
谭杰的研究路径解释了机器人过去十年的两个转折:第一,强化学习和 Sim2Real 改变了运动控制;第二,大模型把语言、常识和计划带入机器人。今天的机器人研究要同时处理大脑和小脑。
机器人基座模型是不是独立学科:So far, not yet
上一章讲两次范式转移,本章讨论一个争议:机器人基座大模型是否应被视作独立于大模型的学科?谭杰的回答很克制:so far, not yet。当前多数机器人智能仍依赖多模态大模型,只是在其上补足 robot action 输出、动作数据和阶段性 fine-tuning。未来如果遇到新的 data format、世界模型或控制瓶颈,它可能变成更独立的学科,但现在还没有质变。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{vla-action-gap.png}
\caption{VLA 补上 Action 输出:多模态模型要控制机器人,必须学会输出动作。自制概念图,依据 00:13:06--00:23:44 对谈内容整理。}
\end{figure}
读图:从 VLM 到 VLA,关键是动作数据
Vision 和 Language 进入多模态模型,原本输出文本和计划;机器人需要的是动作,因此要加入 Action Data,让模型从 VLM 变成 VLA。这里的动作不是抽象文字,而是机器人关节、轨迹、末端执行器和控制信号。
VLA、泛化和成功率
本节把“动作输出”落到可用性。VLA 的意义不只是把 action 加进名字,而是让机器人从语言和视觉真正走向可执行动作。
VLA 是 Vision-Language-Action,即视觉、语言和动作模型。它希望把“看见环境”“理解指令”和“输出动作”放进同一个模型或系统中。当前模型在简单 pick-and-place 等任务上成功率很高,但对精细操作,例如拉拉链、精确抓取和方向控制,成功率可能只有三四成。这个数字在研究视频里有进展意义,但在现实生活里不可用。
研究成功率与产品可用性不同
在真实世界里,30%--40% 成功率的精细操作几乎不可用。用户需要的是稳定、可恢复、可解释和可安全失败的系统,而不只是一次视频里完成任务。
从 idea 到 demo 到落地
谭杰用自动驾驶做类比:从一个想法到论文 prototype 可能只需半年到一年;从论文到敢做 live demo 可能要一两年;从 live demo 到真正落地可能要五到十年。机器人比自动驾驶更难,因为动作空间更大、任务更多、物理交互更复杂。自动驾驶是动作输出相对有限的垂直场景,仍然花了十多年才接近落地。
从研究到落地的阶段表
| 阶段 | 常见产物 | 主要风险 |
|---|---|---|
| Idea | 研究想法、训练 recipe、初步假设 | 可能只在很窄条件下成立。 |
| Prototype | 论文、离线评测、录制视频 | 假设很多,失败样本被过滤。 |
| Live demo | 现场演示、有限任务成功 | 稳定性和异常恢复仍不足。 |
| Pilot | 小规模客户或场景试点 | 成本、维护、安全和运营压力出现。 |
| Production | 可复制商业部署 | 需要可靠硬件、数据飞轮和服务体系。 |
机器人时间尺度
研究突破和商业落地不是同一件事。机器人需要从任务成功率、硬件可靠性、安全、成本、维护、数据飞轮和场景价值上同时过线,才能从 demo 进入真实生产。
本章小结
机器人基座模型目前更像多模态大模型的延伸,而不是完全独立学科。真正决定它是否独立的,是未来是否需要新的数据格式、世界模型、控制范式和跨本体泛化机制。
机器人数据瓶颈:真实世界太复杂,数据太贵
前面说模型还没有完全独立,本章进入机器人最硬的问题:数据。谭杰认为机器人最大问题是数据。机器人处在复杂的 unstructured environment 中,任何事情都可能发生;动作轨迹昂贵,长尾失败难覆盖,硬件本体不同还会导致数据难以共享。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{robotics-data-bottleneck.png}
\caption{机器人数据瓶颈:非结构环境、长尾失败和动作反馈让数据特别贵。自制概念图,依据 00:23:44--00:27:52 对谈内容整理。}
\end{figure}
读图:机器人数据不是普通视频数据
真实环境不可控,动作轨迹采集昂贵,失败样本难覆盖,跨本体有硬件差异,精细操作成功率低。高质量数据因此成为机器人从 demo 到泛化的核心瓶颈。
为什么几百小时不够验证 scaling
本节解释为什么机器人数据问题比普通视频或文本数据更难。训练机器人不是只收集“看起来相关”的视频,而是要收集带动作、结果、失败和恢复路径的数据。
谭杰提到,在机器人上如果只有几百小时数据,可能无法验证 scaling;你可能需要几万小时数据,才能看到训练 recipe 是否真的 work。这个要求对创业团队和投资人都很残酷,因为初期小钱小数据很难证明长期路线,而机器人又特别需要长期信仰和大投入。
小数据 demo 的误导
几十小时或几百小时数据可能做出漂亮 demo,但不足以证明泛化。机器人真正需要的是跨场景、跨物体、跨本体、跨失败模式的高质量数据。
特斯拉路线为什么难复制到通用机器人
特斯拉汽车有用,所以每天产生真实驾驶数据,数据飞轮能转起来。许多机器人硬件虽然能采数据,但还没有达到“本身有用”的阈值,因此数据飞轮转不起来。这是为什么不能简单说“中国有硬件所以能复制特斯拉路线”:硬件必须先进入真实使用,数据才有持续回流。
机器人像几岁小孩:能力不均衡
本节补充一个很容易被忽视的判断:机器人能力不是均匀长大的。谭杰用小孩做类比,认为机器人的 locomotion 已经很强,甚至某些运动能力超过成年人;但 manipulation,尤其是灵巧手操作,可能还像两三岁小孩,能大概理解指令、尝试几次,但抓取不稳,精细动作更难。
能力不均衡:Locomotion vs Manipulation
| 能力 | 当前状态 | 为什么不同步 |
|---|---|---|
| Locomotion | 跑、跳、平衡和步态已经进展很快 | 强化学习和 Sim2Real 在过去五年基本解决了许多运动控制问题。 |
| 普通抓取 | 能完成简单抓放和跟随指令 | 需要视觉、目标理解和粗控制,但容错相对高。 |
| 灵巧手操作 | 仍然很难,很多任务不稳定 | 多指协同、触觉、接触力和材质反馈都很复杂。 |
| 认知规划 | 大模型带来常识和任务拆解 | 但计划仍要和真实动作成功率耦合。 |
本章小结
机器人领域的第一性问题仍是高质量数据。没有足够真实、足够多样、足够可验证的数据,就无法判断模型是否能 scale,也无法从 demo 走向可用产品。
Gemini Robotics 1.5:Motion Transfer 与跨本体迁移
本章进入节目标题里的 Gemini Robotics 1.5。谭杰提到一个关键方法叫 motion transfer,即把动作能力从一种机器人或本体迁移到另一种机器人或本体。跨本体是机器人泛化的核心问题之一,因为不同机器人有不同自由度、不同关节、不同手、不同传感器和不同动力学。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{gemini-robotics-15-loop.png}
\caption{Gemini Robotics 1.5 闭环:从视觉语言到动作,再用 Motion Transfer 泛化到新本体。自制概念图,依据 00:27:52--00:47:32 对谈内容整理。}
\end{figure}
读图:Motion Transfer 是跨本体的桥
自然语言指令和视觉状态进入 Gemini,模型生成计划和动作;Motion Transfer 让动作从一个机器人迁移到另一个机器人;最终机器人执行并产生新的反馈。这里的难点是本体不同,动作不能直接复制。
跨本体为什么难
跨本体不是简单把一个动作文件拷贝到另一台机器人。不同机器人身高、手臂长度、关节限制、力矩、末端执行器和传感器都不同。一个 humanoid 的动作迁移到四足机器人或机械臂,会遇到几何、动力学和控制约束差异。Motion Transfer 的价值在于把“任务意图”和“运动模式”从具体硬件中抽象出来。
跨本体不是把数据“混在一起”
如果不处理本体差异,把不同机器人轨迹直接混合可能会引入冲突信号。跨本体迁移要区分任务意图、运动语义、控制空间和硬件约束,否则模型学到的可能只是噪声。
跨本体泛化
跨本体泛化要求模型理解任务本质,而不只是记住某台机器人的动作轨迹。它是机器人从专用硬件走向通用能力的重要台阶。
Synthetic Data:真实数据不足时怎么办
本节讨论数据瓶颈的一个关键补法。既然真实机器人数据昂贵、慢、危险且长尾不足,合成数据和仿真就变成几乎绕不开的选择。
谭杰最后的关键 bet 是相信 synthetic data 的价值:光靠 real data 解决不了机器人。Synthetic data 即合成数据,通常来自仿真环境、程序生成场景、自动化轨迹和扰动采样。它的优势是规模大、可控、可覆盖长尾;缺点是 sim-to-real gap,即仿真和真实之间仍有差距。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{synthetic-data-loop.png}
\caption{Synthetic Data 闭环:真实数据不足时,用仿真生成大量可控训练样本。自制概念图,依据 00:47:32--01:03:48 与结尾 BAT 整理。}
\end{figure}
读图:合成数据不是替代真实,而是补足真实
真实任务定义目标,仿真环境生成场景,合成轨迹提供大量样本,训练后仍要回到真实评测。真实评测暴露 sim-to-real gap,再反馈到仿真和训练。
本章小结
Gemini Robotics 1.5 的核心价值在于把多模态模型、动作输出和跨本体迁移放进同一个机器人系统中。Motion Transfer 和 Synthetic Data 都服务于同一个目标:让机器人能力从单一硬件和单一任务中泛化出去。
世界模型、触觉与灵巧手
前面讨论动作迁移和数据,本章进入两个更底层的能力:世界模型与触觉。谭杰把世界模型描述为 Vision-Language-Vision:输入当前视觉和语言/动作,生成下一帧或未来视觉状态。触觉则在灵巧手场景里变得重要,因为精细抓取、滑动、材质和接触力无法只靠视觉稳定解决。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{world-model-vlv.png}
\caption{世界模型 V-L-V:Vision + Language 输入,预测下一帧视觉状态。自制概念图,依据 01:03:48--01:08:29 对谈内容整理。}
\end{figure}
读图:世界模型是“预测动作后果”
当前画面和语言目标进入 World Model,模型预测下一帧或未来视觉状态,Policy 再据此选择动作。它不是只生成漂亮视频,而是帮助机器人想象“如果我这么做,世界会怎样”。
世界模型为什么重要
本节把世界模型从“视频生成”拉回机器人控制。机器人需要的是预测行动后果,而不是生成一段看起来合理的画面。
机器人需要在行动前预测后果。抓杯子会不会倒,拉链往哪个方向拉,手碰到布料会怎样变形,这些都需要对世界状态变化建模。世界模型如果足够强,可以减少真实试错成本,提高规划和恢复能力。
触觉为什么重新重要
接下来讨论传感器层面的变化。过去触觉常被认为不重要,部分原因是硬件能力没有到需要精细触觉的阶段;一旦进入灵巧手,触觉就从锦上添花变成基础输入。
谭杰提到,过去觉得触觉不重要,是受限于硬件;如果有灵巧手,触觉就非常重要。普通夹爪可以靠视觉和粗动作完成不少任务;灵巧手则需要知道接触力、滑动、材质、抓取稳定性和指尖状态。没有触觉,很多精细 manipulation 很难可靠完成。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{tactile-dexterous-hand.png}
\caption{触觉与灵巧手:硬件越灵巧,触觉越重要。自制概念图,依据 01:08:29--01:17:35 对谈内容整理。}
\end{figure}
读图:触觉价值随本体复杂度上升
普通夹爪主要处理位置和闭合;灵巧手要处理多指协同、接触力、滑动、材质和抓取稳定性。硬件越接近人的手,触觉越不再是可有可无的传感器。
本章小结
世界模型解决“预测后果”,触觉解决“精细接触”。二者都指向同一件事:机器人要从粗糙动作走向可靠操作,必须理解物理世界的变化和接触。
通用机器人路线:从 Automation 到 Superhuman
本章总结谭杰对机器人发展阶段的划分。他提到五个阶段:Automation、Teleoperation、Narrow Generalist、Home Generalist、Superhuman Capability。这个路线图有助于避免把所有机器人能力混成一个问题。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{robot-generalist-stages.png}
\caption{通用机器人阶段:从固定自动化到超人能力的长期路线。自制概念图,依据 01:17:35--02:06:16 对谈内容整理。}
\end{figure}
读图:每一阶段的“通用性”都不同
Automation 是固定规则,Teleoperation 是硬件可用但人远程控制,Narrow Generalist 是窄域智能泛化,Home Generalist 是家庭多任务通用,Superhuman 是在某些能力上超越人类。不要把窄域泛化误读成家庭通用。
Specialist 与 Generalist
早期落地可能仍在制造、物流、超市、折衣服、餐巾等垂直场景。垂直 specialist 更容易找到需求、ROI 和可控环境。但如果真正 generalist 成型,它能做 specialist 的任务,还能做更多任务,许多 specialist 会被压缩。问题在于 generalist 需要更久时间和更多数据。
不要用最终形态否定中间商业化
通用人形机器人可能是长期目标,但短期垂直场景仍可能创造价值。专业化路线和通用路线不是非此即彼,二者可能并行很多年。
安全问题不是儿戏
谭杰明确说需要关注 AI safety 和 robot safety。当 AI 或机器人能自我迭代时,人类会面临生存问题。Google DeepMind 有 Responsibility and Safety Council,会审查模型和机器人对社会的影响以及安全后果。最坏情况下,如果机器人能力超过安全理解,就应该停下能力扩张,让安全研究追上。
机器人安全原则
能力和安全必须齐头并进。每个发展阶段都要做相应安全研究;如果能力进展超过安全理解,应该暂停能力扩张,让 safety catch up。
为什么机器人容易被高估
本节补上谭杰对行业情绪的提醒。机器人最容易被高估,是因为公众看到的常常是最好的 demo:团队可能拍了十遍,选出最好的一遍发布;视频里没有呈现失败次数、环境假设、人工重置、任务边界和安全接管。观众容易把“最优样本”误认为“稳定能力”,从而以为明年就能买到家用人形机器人。
Demo 视频的证据边界
一个机器人视频能证明“这件事在某些条件下发生过”,但不能证明它具备可部署能力。要判断落地,需要看重复成功率、失败恢复、环境变化、任务多样性、成本、维护和安全边界。
谭杰的态度是兴奋但冷静:机器人确实在加速,落地场景也开始出现;但“能干活的 humanoid 机器人”现在仍是一片荒漠。真正应该避免的是同时犯两个错误:高估短期能力,低估长期影响。
正确的时间感
短期看,机器人离家庭通用还远;中期看,垂直场景可能先落地;长期看,一旦 generalist 真正形成,specialist 的生存空间会被压缩。
本章小结
机器人路线应该分阶段看。短期是窄域泛化和垂直落地,中期是家庭 generalist,长期才是超人能力。安全问题必须从早期就进入研究流程。
中美机器人分工:硬件、信仰和数据飞轮
本章回到中美视角。谭杰认为中国硬件发展很快,宇树、智元、星海图等公司代表中国在本体、供应链和制造上的强项;美国/硅谷更强在长期投入、模型大脑、研究信仰和算力。理想状态下,中美应更好合作:美国的智能发展和中国的硬件制造互补。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{china-us-robotics-split.png}
\caption{中美机器人分工:美国更强智能范式,中国更强硬件与供应链。自制概念图,依据 01:17:35--02:06:16 对谈内容整理。}
\end{figure}
读图:硬件强不自动等于数据飞轮强
中国强在硬件、本体、供应链和制造;美国/硅谷强在长期研究、模型大脑、算力和愿意为远期愿景投入。机器人需要两者结合,但硬件必须先有实际用途,数据飞轮才会转起来。
硅谷信仰与国内短周期压力
本节把技术路线转到资源环境。机器人需要长期数据和长期工程投入,因此不同地区的资本耐心、硬件能力和组织文化,会直接影响路线能不能跑出来。
谭杰说,硅谷愿意相信看起来 ambitious、短期没有结果的长期方向,可以投钱十年;国内更倾向短期落地、盈利和快速发展。机器人和大模型都需要烧很多钱、采很多数据、做长期试验。如果初期只给很少资源,很难验证 scaling。
短周期压力会伤害长期验证
机器人许多路线不是“先给一点数据看效果,再决定是否投入”就能验证的。若初期数据量太小,模型甚至无法显现 scaling 规律,团队可能会错误地放弃长期正确方向。
Google 路线、Waymo 路线与特斯拉路线
张小珺提出一个类比:Google 的机器人路线可能像 Waymo,强调大脑和系统;国内硬件公司可能像 Tesla,希望硬件部署带来数据。谭杰提醒,Tesla 的车本身有用,因此数据飞轮能转;当前很多机器人硬件还没有达到有用阈值,不能简单类比 Tesla。
数据飞轮成立的前提
| 前提 | 含义 | 机器人中的难点 |
|---|---|---|
| 产品有用 | 用户愿意真实使用,而不只是看 demo | 很多机器人还未达到日常可用阈值。 |
| 场景高频 | 使用频率足以产生大量数据 | 家庭和开放场景长尾太多。 |
| 反馈可记录 | 成功、失败和接管能被结构化记录 | 操作失败原因可能来自视觉、力控、规划或硬件。 |
| 回流可训练 | 数据能进入训练和评测闭环 | 跨本体和隐私/安全都增加成本。 |
本章小结
中美机器人分工不是谁替代谁,而是硬件和智能的互补。真正的挑战是让硬件进入有用场景,形成数据飞轮,并用长期投入把模型、合成数据和真实评测接起来。
术语消化:本期关键词索引
| 术语 | 一句话解释 | 在本期中的作用 |
|---|---|---|
| Robotics | 机器人学,研究感知、控制、规划和实体执行 | 全片主题。 |
| Embodied AI | 具身智能,智能体在环境中感知和行动 | 中文语境常用,但谭杰更倾向说机器人。 |
| Sim2Real | 从仿真训练迁移到真实世界 | 谭杰早期范式转移的核心。 |
| Reinforcement Learning | 强化学习,通过 reward 试错优化策略 | 解决 locomotion 和控制的重要方法。 |
| PPO | Proximal Policy Optimization,常用强化学习算法 | 谭杰早期工作采用的技术背景之一。 |
| MPC | Model Predictive Control,模型预测控制 | 传统机器人控制路线代表。 |
| VLM | Vision-Language Model,视觉语言模型 | 能看图和理解语言,但通常不直接输出动作。 |
| VLA | Vision-Language-Action,视觉语言动作模型 | 机器人基座模型的重要形式。 |
| Motion Transfer | 动作迁移,把动作能力迁到不同本体 | Gemini Robotics 1.5 的关键机制之一。 |
| World Model | 预测世界状态变化的模型 | 帮助机器人规划动作后果。 |
| V-L-V | Vision-Language-Vision | 谭杰描述世界模型的一种方式。 |
| Synthetic Data | 合成数据,通常来自仿真或程序生成 | 弥补真实机器人数据不足。 |
| Tactile Sensing | 触觉感知,测量接触力、滑动和材质 | 灵巧手和精细操作的重要输入。 |
| Dexterous Hand | 灵巧手,多指复杂操作本体 | 触觉和 manipulation 的难点集中区。 |
| Generalist | 通用型机器人,可跨任务泛化 | 长期目标,会压缩 specialist。 |
| Specialist | 专用型机器人,解决特定垂直任务 | 短期更容易落地。 |
本章小结
本期术语表明,机器人不是单个模型名,而是一组横跨仿真、动作、世界模型、触觉、硬件和安全的系统问题。理解术语之间的关系,比追逐单个 demo 更重要。
总结与延伸
核心结论
本节把全篇的机器人判断压缩成检查表。读者可以用它来评估一个机器人 demo 或公司叙事:它解决的是大脑、小脑、数据、本体、触觉、安全,还是只展示了其中一块?
- 机器人过去十年的第一范式转移,是强化学习和 Sim2Real 改变 locomotion。
- 大模型带来第二范式转移,让机器人获得语言理解、常识和计划能力。
- 机器人基座模型目前仍主要是多模态大模型加动作数据和 fine-tuning,尚未完全独立。
- 高质量数据是机器人当前最重要瓶颈,几百小时数据不足以验证 scaling。
- Gemini Robotics 1.5 的 Motion Transfer 试图解决跨本体泛化。
- Synthetic Data 是谭杰认为必须相信的关键方向,光靠真实数据不够。
- 世界模型的价值在于预测动作后果,而不只是生成视频。
- 灵巧手让触觉重新重要,因为精细 manipulation 需要接触信息。
- 通用机器人会经历从固定自动化到超人能力的长期阶段。
- 中美机器人最理想的路径是智能范式和硬件供应链互补。
开放问题
本节保留开放问题,是因为本期讨论的许多技术路线仍处在快速变化阶段。机器人行业最需要的不是单个答案,而是持续跟踪哪些变量真的改善:数据规模、跨本体迁移、触觉硬件、世界模型和安全评测。
- 机器人基座模型什么时候会真正独立于多模态大模型?
- Motion Transfer 能否在足够多本体之间稳定工作?
- Synthetic Data 如何缩小 sim-to-real gap?
- 世界模型是视觉预测更重要,还是动作/状态预测更重要?
- 触觉硬件何时能规模化进入灵巧手数据飞轮?
- 通用人形机器人和垂直 specialist 会并存多久?
- 机器人 safety 应该如何在能力快速增长前先行?
拓展阅读
- Sim2Real Learning Agile Locomotion for Quadruped Robots:理解强化学习如何迁移到真实四足机器人。
- Robot Transformer 系列:RT-1、RT-2、RT-X 等工作。
- Gemini Robotics / Gemini Robotics 1.5:Google DeepMind 机器人模型路线。
- EP132 高继扬访谈:星海图、Waymo/Momenta 和具身智能生产化。
- EP134 数据综述:机器人数据、Recipe 和数据定价。
最后的判断
机器人最难的不是“让模型看懂一句话”,而是让一个实体系统在真实世界中稳定行动。大模型给了机器人大脑,强化学习给了部分小脑,合成数据和世界模型试图补足经验,但真正落地还需要高质量数据、可靠硬件、触觉、安全和长期耐心。