跳转至

[CS25] Robotics and Imitation Learning — Ted Xiao, Google Brain

LaTeX 源码 · 备用 PDF · 观看视频

字段 内容
作者/整理 基于 Ted Xiao 授课内容整理
来源 Stanford Online
日期 2026年04月02日

[CS25] Robotics and Imitation Learning — Ted Xiao, Google Brain

引言:机器人学习的新一轮

演讲背景与动机

Ted Xiao 以 Google Brain 机器人团队的实践为例,介绍 Stanford CS25 里“基础模型 + 机器人”的思考脉络。00:00:05--00:01:20 这一段,他先阐明“多模态大模型”对机器人控制的激励,再按照“高层动机 → 实证成果 → 未来展望”切分全场,使听众带着“提升好奇心”的状态进入后续内容。

跨模态基础模型的跳跃

“大模型 + 大数据 + 多模态”能让机器人从“精细控制某个动作”转向“理解意图、感知环境、预测后果”,这是从面向任务的方法迈向复用型控制器的关键跃迁。00:03:05--00:08:30。

讲座脉络与目标

整场演讲围绕三个挑战展开:第一,为什么传统机器人训练在复杂场景里失效(包括数据稀疏与泛化问题);第二,如何借助 RT-1、SayCan/Inner Monologue、RT-2 架构实证一套语言-视觉-动作闭环;第三,远景中如何让机器人把实体执行反馈回 LLM 以助于再训练。Ted 希望听众“更兴奋一些”,反复提到“让模型理解自然语言而非乞求手写动作”这样的目标(00:01:34--00:04:45)。

封面与视觉提示

Stanford CS25 讲座封面 slide,强调机器人 + 基础模型的组合

来源:视频时间 00:00:03–00:00:18。

封面 slide 用黄色/蓝色分块承载 “Robotics and Imitation Learning” 的主题,与视频开场的“架构、数据、模型”三段话呼应。为了避免关注度散失,我在正文中保留每个模块的教学逻辑,而不是逐字转录讲稿。

本章小结

本节完成了“为什么做这场讲座”与“如何听”的引导:强调基础模型是机器人普适能力的关键,确认三大篇章(RT-1、SayCan/Inner Monologue、RT-2)将依次铺开,并用封面 slide 固定讲座的视觉语义。

机器人基础模型的动力

现实世界与模型能力缺口

早期机器人常在“固定场景 → 在线强化学习”循环里转圈,收敛慢、泛化弱。00:05:23--00:11:00,Ted 用“地面、桌布、物体”这些日常对比强调:机器人必须具备“看懂自然语言、感知多模态、预测离散动作”的核心能力,才能避免“在每个新桌面都重新写 RL 算法”。

三大支柱:架构、模型、数据

三个支柱联合形成稳定的 scaling 曲线。

支柱 核心变化 视频凭据
高容量架构 Transformer 的自注意力被用来同时处理图像 patch、语言 token 与动作 token,token learner 模块在 81 个 patch 中只保留 8 个最重要表征以节省 compute(00:26:03–00:27:33)。 00:26:03–00:27:33
爆炸式模型 Scaling laws(Chinchilla/LLM)指出“model/data/compute”叠加能引发 emergent behavior,Ted 称“模型体量不是越大越好,而是要有足够 multi-modal supervision 触发质的飞跃”(00:07:26–00:09:29)。 00:07:26–00:09:29
多模态离线数据 离线 teleop 与示范数据可以在收集、训练两个阶段并行,KUKA farm + micro kitchen + simulated trajectories 形成 130k 演示,支持跨场景验证(00:10:10–00:34:00)。 00:10:10–00:34:00
理解机器人基础模型的三大支柱

Scaling 视角的实验提示

在 ablation 中,减少任务种类的影响比减少单任务 episode 更剧烈(00:38:55--00:40:07)。说明机器人需要“语义多样性”而非千次重复同一指令,训练集须覆盖不同颜色、位置与动作组合。

“More is Different” 与 emergent capability

引用 Jacob Steinhardt 的“More is Different”比喻,Ted 反复提醒:当模型、compute、token 多样性超过某个转折点时,会出现原先不存在的能力(00:04:28--00:05:20)。机器人领域的 emergent 体现在“不仅能抓对象,还能理解颜色词、方位与人类意图的组合”。

Emergent 线索的观测表

Emergence 需要满足四个条件:大模型、高 compute、多样 token 与多模态 supervision。团队从 7 台机器人 → 130k 演示逐步记录每个变量,提前部署下一个 scaling jump。

本章小结

本节通过 gap、三大支柱与 emergent 框架,解释为何机器人必须从“特定策略”进化到“模态融合的基础模型”,为后续的 RT-1/LLM 架构奠定认知土壤。

RT-1:模仿学习的核心流水线

数据平台与 Teleoperation

从 2020 年起,团队在 7 臂 KUKA farm 24/7 地收集 teleoperation demo,之后拓展至 micro kitchen、office,累计 130k+ 演示(00:23:50--00:34:01)。所有 episode 都经人工审核,添加 success/failure 记录与自动 reset,以确保数据能在多种桌布/物体/光照下复现。

微厨房与多任务数据管道

微厨房的数据不仅含丰富物体类别、位置变化,还设计 auto-reset bin、拍摄多角度,强化视觉泛化;人工审核的“终止”标签确保 success detector 有稳定的监督(00:14:17--00:14:30)。

Token Learner 与离散动作解码

RT-1 用 decoder-only Transformer 处理视觉 + 语言输入,Vision Token Learner 从每帧的 9×9 patch 中选出 8 个最 informative token,再和语言指令耦合,配合 causal decoder 生成 256 个离散动作 token,最后由动作字典恢复到末端位置(00:25:26--00:27:50)。

RT-1 的设计亮点

1)Token Learner 减少多模态输入长度,2)离散化动作让 CEM actor 能快速搜索,3)6 帧历史 + 指令保证上下文连贯且满足 3Hz 实时反馈。(00:26:03--00:27:40)

阶段 描述 核心思想
视觉 tokenization EfficientNet + token learner 挑出 8 个 patch,减轻 Transformer 上下文负担。 00:26:03–00:27:33
语言融合 指令 token 与视觉 token 共享 Transformer,保持 causal decoder。 00:26:19–00:26:36
动作输出 Decoder 预测 256 个 token 交给 CEM actor 恢复连续控制,控制在 3Hz 以下响应。 00:26:47–00:28:40
RT-1 模型输入→输出流水线

训练配方与泛化评估

训练时比较 RT-1 与 Gato、BC-Zero、ResNet baseline,使用 cluttered table、tablecloth、sim-to-real 等条件,评价标准是 binary success(第一次成功记 1)。Task diversity 的 ablation 发现:减少任务种类比减少同一任务 episode 更快降级,说明模型从“语义多样性”中真正获益(00:38:55--00:40:07)。

任务多样性比样本数重要

如果只在一个模板指令上重复 10k 次演示,模型在新场景下很快失效。应该扩充颜色、位置、状态等高层指令,而不是不断重复 structured command。(00:39:53--00:40:07)

部署与失效分析

Ted 在问答环节回应“是否有 bottleneck”、“language conditioning 是否被动”——SayCan/Inner Monologue 的 success detector 会反馈“失败”并促使 LLM replanning。即便在 adversarial 场景(随机敲击物体),系统也会触发 language relabeling(00:51:00--00:54:15)。

评估中出现的奇异失败

在“two apples”或“move the lonely object”命令中训练集缺少 duplicate objects,模型容易迷失。通过 language relabeling 把“left”当区域而不限对象,才能在 unseen layout 中复现合理动作。(01:01:40--01:01:58)

本章小结

RT-1 的成功来自:1)自动化 + 多任务的演示数据;2)面向机器人动作 token 的 Transformer 架构;3)多来源数据与语言伪标签提升鲁棒性。集成这些要素后,模型在多场景中表现出高 success rate。

SayCan 与 Inner Monologue:LLM 规划引擎

Say 与 Can 评分机制

SayCan 让 LLM 提出 candidate planning(Say)并和 affordance 模块的可执行性(Can)相乘,选出 \(\arg\max(\text{Say} \times \text{Can})\) 的动作序列。候选指令来自自然语言模板(pick/move/put),affordance network 用视觉/历史记录判断物理可行性,确保规划具备执行力(00:44:28--00:45:40)。

SayCan 打分公式

\[ \text{Score}(a) = \text{LLM}_{\text{task}}(a) \times \text{affordance}_{\text{robot}}(a) \]

LLM 提供语义高分,affordance 控制物理可行;两者任一失衡即被抑制。

Inner Monologue 的反馈闭环

Inner Monologue 在 SayCan 基础上引入 passive/active scene description:被动模块总结当前桌面状态,主动模块向 LLM 提问如“这个 Coke can 已经擦干净了吗”,再由 VQA 或人类答复,最后 success detector 调度重规划(00:51:00--00:54:15)。

主动与被动场景描述

被动描述类似“当前桌面有三个罐子、一个海绵”,用于构建 context;主动描述允许 LLM 询问疑问,success detector 与 VQA 形成闭环反馈。

反馈循环中的噪声

成功检测器若过于宽松会让 LLM 误判完成,太严格又引发无谓重试。系统必须在“信心”与“开放性”间找到平衡,否则 replanning 无法稳定运行(00:52:10--00:53:30)。

问答与调参常识

问答环节揭秘了调参思路:1)LLM 计划须与 success detector 联动,失败就提问;2)Plan API 需要对失败敏感,避免 blind execution;3)dataset diversity 与 labeling 投入要分阶段加码,而非一次性下大赌注(00:34:10--00:35:30)。

问答中的设计常识

听众的问题帮助团队确认:1)需要即时反馈的 LLM ;2)Plan API 要向 failure 敏感;3)语言标注的投入应该随着调研逐步加码。

本章小结

SayCan\slash Inner Monologue 的组合连接了高层意图与低层动作:LLM 负责语义 planning,affordance + success detector 控制执行,active query 与 replanning 保证系统不会盲目执行老计划。

RT-2:语言-视觉-动作的对齐

语言即 Plan API

RT-2 把语言模型当成通用编排器:任何字符串都可以是 plan,比如“bring me a healthy snack”或“move the lonely object to the cluster”。通过 chain-of-thought prompt,LLM 逐步输出“下一动作 + 解释”,随着 PaLM 等更强模型上线,整个系统无需重训练便可提升表现(00:48:59--00:50:20)。

Prompting 的即插即用能力

示例 + 语言指令让 LLM 自动解耦高层意图与基础动作;Plan 只是字符串,可以由人、脚本或 LLM 生成,随着更强模型上线即可 hot swap。

语言重标注与伪标签

在 RT-2 pipeline 中,手动标注 3% 示例后用 CLIP 生成 pseudo label,将自由文本 caption 扩散到其余 97%,再与 simulation、RL、历史 teleop 数据一道训练。CLIP embedding 让同一段轨迹产生“pick red Coke can near sponge”这样的细粒度描述,极大拓宽语义覆盖范围(00:57:20--00:58:40)。

语言作为语义放大器

CLIP embedding 将视觉轨迹重新谱写成自由文本,使得每条演示都能拥有多个 instruction,突破“每 demo 只能对应唯一动作”的限制。

提示工程与开放指令评估

团队借助 Mad Lib 风格 paraphrase、随机噪声以及 LLM 自生成模板扩充 training set,验证系统在“move the lonely red object toward the left cluster”之类指令中的表现(01:01:24--01:01:58)。

标注噪声与泛化

虽然 pseudo label 引入噪声,团队仍在 early stage 控制 noise ratio,并用 success detector 识别可信 caption,证明少量错误不会阻碍模型从大量新指令中学习(01:04:45--01:05:20)。

复现与泛化视角

开放指令集合不再限于 700 个 template,而是允许研究者即兴输入任意语言。测试场景覆盖 duplicate objects、桌角等 unseen layout,RT-2 在 “Duplicate Coke + sponge” 的实验里还能稳定完成任务,体现 CLIP 语言重标注带来的泛化能力(01:01:24--01:01:58)。

本章小结

RT-2 让语言、视觉、动作三者协同:语言定义 plan,CLIP pseudo label 放大语义,自由指令测试检验泛化,整体系统在 duplicate objects 与 novel commands 下也能算出可执行 plan。

工程系统与未来方向

实时推理与硬件约束

实际部署须保证 100ms 以内完成推理,RT-1 因此控制参数量在 35M,token learner + discrete action decoder 降低 compute,CEM actor 只能在有限 discrete action 上搜索。Ted 也承认这是“当前的折中”,未来需要更高效的硬件以支撑更复杂 policy(00:29:30--00:30:20)。

过度依赖 action history 的陷阱

早期让 Transformer 条件于过去动作会让模型跟随 teleoperator,导致迁移到新的机器人时泛化差。RT-1 去除 auto-regressive action history,避免 context-learning 变成 overfit(00:43:30--00:43:55)。

数据平台与标注自动化

数据平台不仅负责采集,还支撑语言重标注:人工审核 + CLIP pseudo label 构成 “人工 + 自动” 的混合流。每次新增语言标注后都会记录 success rate,在表格中用绿色代表新增任务、蓝色代表新场景、橙色代表重复播放,确保数据 breadth 优先于 depth(01:04:24--01:04:58)。

多样数据的三重角色

1)提供基础行为;2)让 language label 具备覆盖面;3)填补 offline dataset 中的 novel instructions 与 unseen scenes gap。只有数据量、语言、模型三方齐头并进,机器人才能展现常识。

Scaling Tests 与指标管理

团队做了三个 ablation:去掉每个任务的 episode、去掉任务种类、去掉整体数据量,success rate 变化表明“任务多样性”影响甚至大于样本总量;但线性关系仍存在,说明只要持续增加数据就能获益(01:04:07--01:04:43)。

干预 观测 启示
减少任务种类 success rate 迅速下降 增加任务指令的语义覆盖更有价值
减少 episode 数 下降较缓 说明 duplicate demo 贡献有限
减少数据量 线性下降 数据量本身仍是 scaling 的驱动
Scaling ablation 的行为日志

机器人与基础模型的互惠

Ted 展望未来:机器人提供 “embodied action + causal” data 给 LLM,LLM 则写 plan 或控制代码。语言模型已经读过教材、docs、UR5 代码,可以用 plan 生成器写出新策略;机器人提供的实体 feedback 则帮助 LLM 更好地理解物理世界。这个互惠生态用“language + robotics” 的组合定调,全局流转 data → model → action → data。

双向增益的未来想象

LLM 生成 plan/代码,机器人反馈 success/failure 信号,LLM 自我改进后插入 planning、data augmentation、low-level control 等模块,最终形成“language + robotics”协同体。

本章小结

工程层面仍受推理速度与数据采集限制,但多模态基础模型带来的互惠理念已在 RT-1、RT-2、SayCan/Inner Monologue 中体现:语言模型提高计划能力,机器人提供实体反馈,数据/模型/架构构成未来突破的三角。

总结与延伸

开放问题

Ted 最后提到未解的难题:如何把自然语言中的“left”“near”“lonely”映射到不同机器人/人理解的实体位置,以及如何用 crowd-generated captions、LLM 的 VQA 进一步对齐这类语义漂移(01:00:21--01:00:59)。

语义定义的边界

词如“left”“near”“lonely”在不同场景语义漂移,靠 success detector 的 active query(“你指哪个 left?”) + 更多 labeled descriptions 短期对齐;长期可引入 3D embedding 或 causal action data 修正偏差。

本讲关键要素

层级 关键工作 引申效果
技能学习(RT-1) 130k teleop demo + token learner + discrete decoder 实现微厨房 90%+ 成功率、强泛化
规划与反馈(SayCan/Inner Monologue) LLM planning + affordance + success detector 规划期间可 replanning、应对 mid-course 变化
语言-视觉-动作一致性(RT-2) CLIP pseudo label + 自由指令测试 duplicate objects 与 novel commands 下仍能完成任务
本讲不同层级的机器人基础模型实践

拓展阅读

  • Brohan et al., “RT-1: Robotics Transformer for Real-World Control at Scale,” RSS 2023.
  • Ahn et al., “Do As I Can, Not As I Say: Grounding Language in Robotic Affordances (SayCan),” 2022.
  • Huang et al., “Inner Monologue: Embodied Reasoning through Planning with Language Models,” CoRL 2022.
  • Brohan et al., “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,” 2023.

本章小结

整场演讲围绕“数据 × 模型 × 语言 × 反馈”建立闭环:RT-1 提供技能基础,SayCan/Inner Monologue 保证 replanning,RT-2 用 language 扩充语义,最终形成一个能回馈实体数据的机器人基础模型生态。