[CS25] Low-level Embodied Intelligence / RT-2 — Fei Xia, Google DeepMind

LaTeX 源码

字段	内容
作者/整理	基于公开课程资料整理
来源	Stanford CS25: Transformers United
日期	Fall 2023

引言：具身智能与基础模型

Fei Xia 是 Google DeepMind 机器人团队的高级研究科学家，本讲聚焦于如何利用基础模型（Foundation Models）加速低层具身智能（Low-level Embodied Intelligence）的构建。

什么是具身智能

具身智能（Embodied Intelligence）是通用人工智能的重要里程碑——让 AI 不仅能在虚拟世界中处理文本和图像，还能与真实物理世界的非结构化、复杂环境进行交互。典型应用包括家用机器人、老人护理、自主清洁等。

当前 AI 的智能主要存在于虚拟世界（写邮件、写文章），但在物理世界中的表现仍然很差。讲者展示了一个有趣的失败案例：机器人被要求将可乐罐放入水槽，但它却打开了拉环——这说明机器人缺乏对自身动作后果的理解，即缺少“世界模型”。

具身智能的层级划分

高层 vs 低层

高层与低层具身智能的区分

高层（High-level）：语义层面的规划与推理，如“先拿杯子，再倒水”。可以用自然语言描述。\ 低层（Low-level）：精确的运动控制，如关节角度、力矩和轨迹。需要连续控制信号。

高层任务可通过 LLM（如 SayCan、Inner Monologue）实现：将复杂指令分解为子任务序列。低层任务则需要将语义理解转化为具体的电机控制命令。

SayCan 与 Inner Monologue

SayCan 结合了 LLM 的语义知识和机器人的可行性评分（affordance），实现“说得到（Say）”与“做得到（Can）”的结合。Inner Monologue 进一步引入多模态反馈（成功检测、场景描述），形成闭环推理。

本章小结

具身智能需要同时解决高层语义规划和低层运动控制两个层面，基础模型在高层展现出强大潜力。

RT-1：机器人 Transformer

架构与训练

RT-1（Robotics Transformer 1）是一个端到端的视觉-语言-动作模型：输入当前相机图像和自然语言指令，输出机器人动作（如末端执行器的位移和抓取命令）。

RT-1 关键设计

使用 FiLM EfficientNet 作为视觉编码器，将图像 token 化
Token Learner 压缩视觉 token 数量，提高推理效率
Transformer 解码器生成离散化的动作 token
在 130k 条真实机器人演示上训练

RT-1 展现了不错的泛化能力，可以处理训练集中未见过的指令组合（如“把苹果移到绿色布上”）。

数据收集

Google 使用了 13 台机器人在真实厨房环境中收集了超过 13 万条演示轨迹，涵盖 700 多个任务。这是当时最大规模的真实机器人操作数据集之一。

本章小结

RT-1 验证了 Transformer 架构可以有效地从大规模真实数据中学习机器人控制策略。

RT-2：视觉-语言-动作模型

核心思想

RT-2 将机器人动作视为“另一种语言”，通过视觉-语言模型（VLM）的微调来生成动作。

RT-2 的关键创新

RT-2 站在 VLM（如 PaLI、PaLM-E）的肩膀上：先用互联网规模数据预训练视觉-语言理解，再将机器人动作编码为特殊 token 进行联合微调。这使模型能将互联网知识迁移到机器人控制中。

动作 token 化

机器人动作（7 自由度末端执行器位移 + 抓取命令）被离散化为 256 个 bin，映射到语言模型词汇表中的特殊 token。这样，生成动作就像生成文本一样自然。

涌现能力

RT-2 展现了令人惊喜的涌现能力：

符号理解：在从未被训练过相关机器人数据的情况下，能理解“将可乐罐移到数字 3 处”
推理：能根据“选最不常见的饮料”在桌上物品中做出合理选择
新物体泛化：从 Dollar Store 买来全新玩具进行测试（防止数据泄露），机器人仍能正确识别和操作

评估机器人的数据泄露问题

与评估语言模型类似，评估机器人也需防止数据泄露。RT-2 团队专门从 Dollar Store 购买训练数据中未出现的新物品来进行评估——这与 LLM 社区为避免数据污染而使用全新问题的做法如出一辙。

本章小结

RT-2 证明了互联网规模的视觉-语言知识可以有效迁移到机器人控制领域，实现零样本泛化。

RT-X 与开放数据

Open X-Embodiment

Google DeepMind 联合 33 个机构发起 Open X-Embodiment 项目，汇集了来自 22 种机器人形态的超过 100 万条轨迹数据。

正向迁移

在语言模型领域，正向迁移（用更多数据训练得到更好性能）已是常识。但在机器人领域，跨机器人、跨场景的正向迁移仍处于早期阶段。Open X-Embodiment 的初步结果表明，混合不同机器人数据确实可以提升单个机器人的表现。

AutoRT

AutoRT 利用 VLM 和 LLM 实现大规模自动化数据收集：VLM 描述场景中的物品，LLM 生成可行任务，机器人自主执行。这种方式大幅降低了人工标注成本。

本章小结

开放数据和自动化数据收集是突破机器人数据瓶颈的关键方向。

安全性考量

机器人安全是刚性需求

与语言模型不同，机器人的错误可能造成物理伤害。RT-2 团队通过硬件安全层（力矩限制）、软件安全层和“宪法安全”（Constitutional Safety）机制来保障安全。讲者透露团队对安全问题“非常认真”。

总结与延伸

本讲全面介绍了 Google DeepMind 在具身智能领域的进展路径：RT-1 \(\to\) RT-2 \(\to\) Open X-Embodiment \(\to\) AutoRT。核心信息是：基础模型（特别是视觉-语言模型）为机器人带来了前所未有的语义理解和泛化能力；但数据瓶颈和安全性仍是最大挑战。

拓展阅读

Brohan et al., “RT-1: Robotics Transformer for Real-World Control at Scale”, 2023
Brohan et al., “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control”, 2023
Open X-Embodiment Collaboration, “Open X-Embodiment: Robotic Learning Datasets and RT-X Models”, 2023
Ahn et al., “Do As I Can, Not As I Say: Grounding Language in Robotic Affordances” (SayCan), 2022