[CS25] Low-level Embodied Intelligence / RT-2 — Fei Xia, Google DeepMind
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | Stanford CS25: Transformers United |
| 日期 | Fall 2023 |
![[CS25] Low-level Embodied Intelligence / RT-2 — Fei Xia, Google DeepMind](cover.jpg)
引言:具身智能与基础模型
Fei Xia 是 Google DeepMind 机器人团队的高级研究科学家,本讲聚焦于如何利用基础模型(Foundation Models)加速低层具身智能(Low-level Embodied Intelligence)的构建。
什么是具身智能
具身智能(Embodied Intelligence)是通用人工智能的重要里程碑——让 AI 不仅能在虚拟世界中处理文本和图像,还能与真实物理世界的非结构化、复杂环境进行交互。典型应用包括家用机器人、老人护理、自主清洁等。
当前 AI 的智能主要存在于虚拟世界(写邮件、写文章),但在物理世界中的表现仍然很差。讲者展示了一个有趣的失败案例:机器人被要求将可乐罐放入水槽,但它却打开了拉环——这说明机器人缺乏对自身动作后果的理解,即缺少“世界模型”。
具身智能的层级划分
高层 vs 低层
高层与低层具身智能的区分
高层(High-level):语义层面的规划与推理,如“先拿杯子,再倒水”。可以用自然语言描述。\ 低层(Low-level):精确的运动控制,如关节角度、力矩和轨迹。需要连续控制信号。
高层任务可通过 LLM(如 SayCan、Inner Monologue)实现:将复杂指令分解为子任务序列。低层任务则需要将语义理解转化为具体的电机控制命令。
SayCan 与 Inner Monologue
SayCan 结合了 LLM 的语义知识和机器人的可行性评分(affordance),实现“说得到(Say)”与“做得到(Can)”的结合。Inner Monologue 进一步引入多模态反馈(成功检测、场景描述),形成闭环推理。
本章小结
具身智能需要同时解决高层语义规划和低层运动控制两个层面,基础模型在高层展现出强大潜力。
RT-1:机器人 Transformer
架构与训练
RT-1(Robotics Transformer 1)是一个端到端的视觉-语言-动作模型:输入当前相机图像和自然语言指令,输出机器人动作(如末端执行器的位移和抓取命令)。
RT-1 关键设计
- 使用 FiLM EfficientNet 作为视觉编码器,将图像 token 化
- Token Learner 压缩视觉 token 数量,提高推理效率
- Transformer 解码器生成离散化的动作 token
- 在 130k 条真实机器人演示上训练
RT-1 展现了不错的泛化能力,可以处理训练集中未见过的指令组合(如“把苹果移到绿色布上”)。
数据收集
Google 使用了 13 台机器人在真实厨房环境中收集了超过 13 万条演示轨迹,涵盖 700 多个任务。这是当时最大规模的真实机器人操作数据集之一。
本章小结
RT-1 验证了 Transformer 架构可以有效地从大规模真实数据中学习机器人控制策略。
RT-2:视觉-语言-动作模型
核心思想
RT-2 将机器人动作视为“另一种语言”,通过视觉-语言模型(VLM)的微调来生成动作。
RT-2 的关键创新
RT-2 站在 VLM(如 PaLI、PaLM-E)的肩膀上:先用互联网规模数据预训练视觉-语言理解,再将机器人动作编码为特殊 token 进行联合微调。这使模型能将互联网知识迁移到机器人控制中。
动作 token 化
机器人动作(7 自由度末端执行器位移 + 抓取命令)被离散化为 256 个 bin,映射到语言模型词汇表中的特殊 token。这样,生成动作就像生成文本一样自然。
涌现能力
RT-2 展现了令人惊喜的涌现能力:
- 符号理解:在从未被训练过相关机器人数据的情况下,能理解“将可乐罐移到数字 3 处”
- 推理:能根据“选最不常见的饮料”在桌上物品中做出合理选择
- 新物体泛化:从 Dollar Store 买来全新玩具进行测试(防止数据泄露),机器人仍能正确识别和操作
评估机器人的数据泄露问题
与评估语言模型类似,评估机器人也需防止数据泄露。RT-2 团队专门从 Dollar Store 购买训练数据中未出现的新物品来进行评估——这与 LLM 社区为避免数据污染而使用全新问题的做法如出一辙。
本章小结
RT-2 证明了互联网规模的视觉-语言知识可以有效迁移到机器人控制领域,实现零样本泛化。
RT-X 与开放数据
Open X-Embodiment
Google DeepMind 联合 33 个机构发起 Open X-Embodiment 项目,汇集了来自 22 种机器人形态的超过 100 万条轨迹数据。
正向迁移
在语言模型领域,正向迁移(用更多数据训练得到更好性能)已是常识。但在机器人领域,跨机器人、跨场景的正向迁移仍处于早期阶段。Open X-Embodiment 的初步结果表明,混合不同机器人数据确实可以提升单个机器人的表现。
AutoRT
AutoRT 利用 VLM 和 LLM 实现大规模自动化数据收集:VLM 描述场景中的物品,LLM 生成可行任务,机器人自主执行。这种方式大幅降低了人工标注成本。
本章小结
开放数据和自动化数据收集是突破机器人数据瓶颈的关键方向。
安全性考量
机器人安全是刚性需求
与语言模型不同,机器人的错误可能造成物理伤害。RT-2 团队通过硬件安全层(力矩限制)、软件安全层和“宪法安全”(Constitutional Safety)机制来保障安全。讲者透露团队对安全问题“非常认真”。
总结与延伸
本讲全面介绍了 Google DeepMind 在具身智能领域的进展路径:RT-1 \(\to\) RT-2 \(\to\) Open X-Embodiment \(\to\) AutoRT。核心信息是:基础模型(特别是视觉-语言模型)为机器人带来了前所未有的语义理解和泛化能力;但数据瓶颈和安全性仍是最大挑战。
拓展阅读
- Brohan et al., “RT-1: Robotics Transformer for Real-World Control at Scale”, 2023
- Brohan et al., “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control”, 2023
- Open X-Embodiment Collaboration, “Open X-Embodiment: Robotic Learning Datasets and RT-X Models”, 2023
- Ahn et al., “Do As I Can, Not As I Say: Grounding Language in Robotic Affordances” (SayCan), 2022