[CS25] Robotics and Imitation Learning — Ted Xiao, Google Brain

LaTeX 源码 · 观看视频

字段	内容
作者/整理	基于 Ted Xiao 授课内容整理
来源	Stanford Online
日期	2026年04月02日

引言：机器人学习的新一轮

演讲背景与动机

Ted Xiao 以 Google Brain 机器人团队的实践为例，介绍 Stanford CS25 里“基础模型 + 机器人”的思考脉络。00:00:05--00:01:20 这一段，他先阐明“多模态大模型”对机器人控制的激励，再按照“高层动机 → 实证成果 → 未来展望”切分全场，使听众带着“提升好奇心”的状态进入后续内容。

跨模态基础模型的跳跃

“大模型 + 大数据 + 多模态”能让机器人从“精细控制某个动作”转向“理解意图、感知环境、预测后果”，这是从面向任务的方法迈向复用型控制器的关键跃迁。00:03:05--00:08:30。

讲座脉络与目标

整场演讲围绕三个挑战展开：第一，为什么传统机器人训练在复杂场景里失效（包括数据稀疏与泛化问题）；第二，如何借助 RT-1、SayCan/Inner Monologue、RT-2 架构实证一套语言-视觉-动作闭环；第三，远景中如何让机器人把实体执行反馈回 LLM 以助于再训练。Ted 希望听众“更兴奋一些”，反复提到“让模型理解自然语言而非乞求手写动作”这样的目标（00:01:34--00:04:45）。

封面与视觉提示

Stanford CS25 讲座封面 slide，强调机器人 + 基础模型的组合

来源：视频时间 00:00:03–00:00:18。

封面 slide 用黄色/蓝色分块承载 “Robotics and Imitation Learning” 的主题，与视频开场的“架构、数据、模型”三段话呼应。为了避免关注度散失，我在正文中保留每个模块的教学逻辑，而不是逐字转录讲稿。

本章小结

本节完成了“为什么做这场讲座”与“如何听”的引导：强调基础模型是机器人普适能力的关键，确认三大篇章（RT-1、SayCan/Inner Monologue、RT-2）将依次铺开，并用封面 slide 固定讲座的视觉语义。

机器人基础模型的动力

现实世界与模型能力缺口

早期机器人常在“固定场景 → 在线强化学习”循环里转圈，收敛慢、泛化弱。00:05:23--00:11:00，Ted 用“地面、桌布、物体”这些日常对比强调：机器人必须具备“看懂自然语言、感知多模态、预测离散动作”的核心能力，才能避免“在每个新桌面都重新写 RL 算法”。

三大支柱：架构、模型、数据

三个支柱联合形成稳定的 scaling 曲线。

支柱	核心变化	视频凭据
高容量架构	Transformer 的自注意力被用来同时处理图像 patch、语言 token 与动作 token，token learner 模块在 81 个 patch 中只保留 8 个最重要表征以节省 compute（00:26:03–00:27:33）。	00:26:03–00:27:33
爆炸式模型	Scaling laws（Chinchilla/LLM）指出“model/data/compute”叠加能引发 emergent behavior，Ted 称“模型体量不是越大越好，而是要有足够 multi-modal supervision 触发质的飞跃”（00:07:26–00:09:29）。	00:07:26–00:09:29
多模态离线数据	离线 teleop 与示范数据可以在收集、训练两个阶段并行，KUKA farm + micro kitchen + simulated trajectories 形成 130k 演示，支持跨场景验证（00:10:10–00:34:00）。	00:10:10–00:34:00

理解机器人基础模型的三大支柱

Scaling 视角的实验提示

在 ablation 中，减少任务种类的影响比减少单任务 episode 更剧烈（00:38:55--00:40:07）。说明机器人需要“语义多样性”而非千次重复同一指令，训练集须覆盖不同颜色、位置与动作组合。

“More is Different” 与 emergent capability

引用 Jacob Steinhardt 的“More is Different”比喻，Ted 反复提醒：当模型、compute、token 多样性超过某个转折点时，会出现原先不存在的能力（00:04:28--00:05:20）。机器人领域的 emergent 体现在“不仅能抓对象，还能理解颜色词、方位与人类意图的组合”。

Emergent 线索的观测表

Emergence 需要满足四个条件：大模型、高 compute、多样 token 与多模态 supervision。团队从 7 台机器人 → 130k 演示逐步记录每个变量，提前部署下一个 scaling jump。

本章小结

本节通过 gap、三大支柱与 emergent 框架，解释为何机器人必须从“特定策略”进化到“模态融合的基础模型”，为后续的 RT-1/LLM 架构奠定认知土壤。

RT-1：模仿学习的核心流水线

数据平台与 Teleoperation

从 2020 年起，团队在 7 臂 KUKA farm 24/7 地收集 teleoperation demo，之后拓展至 micro kitchen、office，累计 130k+ 演示（00:23:50--00:34:01）。所有 episode 都经人工审核，添加 success/failure 记录与自动 reset，以确保数据能在多种桌布/物体/光照下复现。

微厨房与多任务数据管道

微厨房的数据不仅含丰富物体类别、位置变化，还设计 auto-reset bin、拍摄多角度，强化视觉泛化；人工审核的“终止”标签确保 success detector 有稳定的监督（00:14:17--00:14:30）。

Token Learner 与离散动作解码

RT-1 用 decoder-only Transformer 处理视觉 + 语言输入，Vision Token Learner 从每帧的 9×9 patch 中选出 8 个最 informative token，再和语言指令耦合，配合 causal decoder 生成 256 个离散动作 token，最后由动作字典恢复到末端位置（00:25:26--00:27:50）。

RT-1 的设计亮点

1）Token Learner 减少多模态输入长度，2）离散化动作让 CEM actor 能快速搜索，3）6 帧历史 + 指令保证上下文连贯且满足 3Hz 实时反馈。（00:26:03--00:27:40）

阶段	描述	核心思想
视觉 tokenization	EfficientNet + token learner 挑出 8 个 patch，减轻 Transformer 上下文负担。	00:26:03–00:27:33
语言融合	指令 token 与视觉 token 共享 Transformer，保持 causal decoder。	00:26:19–00:26:36
动作输出	Decoder 预测 256 个 token 交给 CEM actor 恢复连续控制，控制在 3Hz 以下响应。	00:26:47–00:28:40

RT-1 模型输入→输出流水线

训练配方与泛化评估

训练时比较 RT-1 与 Gato、BC-Zero、ResNet baseline，使用 cluttered table、tablecloth、sim-to-real 等条件，评价标准是 binary success（第一次成功记 1）。Task diversity 的 ablation 发现：减少任务种类比减少同一任务 episode 更快降级，说明模型从“语义多样性”中真正获益（00:38:55--00:40:07）。

任务多样性比样本数重要

如果只在一个模板指令上重复 10k 次演示，模型在新场景下很快失效。应该扩充颜色、位置、状态等高层指令，而不是不断重复 structured command。（00:39:53--00:40:07）

部署与失效分析

Ted 在问答环节回应“是否有 bottleneck”、“language conditioning 是否被动”——SayCan/Inner Monologue 的 success detector 会反馈“失败”并促使 LLM replanning。即便在 adversarial 场景（随机敲击物体），系统也会触发 language relabeling（00:51:00--00:54:15）。

评估中出现的奇异失败

在“two apples”或“move the lonely object”命令中训练集缺少 duplicate objects，模型容易迷失。通过 language relabeling 把“left”当区域而不限对象，才能在 unseen layout 中复现合理动作。（01:01:40--01:01:58）

本章小结

RT-1 的成功来自：1）自动化 + 多任务的演示数据；2）面向机器人动作 token 的 Transformer 架构；3）多来源数据与语言伪标签提升鲁棒性。集成这些要素后，模型在多场景中表现出高 success rate。

SayCan 与 Inner Monologue：LLM 规划引擎

Say 与 Can 评分机制

SayCan 让 LLM 提出 candidate planning（Say）并和 affordance 模块的可执行性（Can）相乘，选出 \(\arg\max(\text{Say} \times \text{Can})\) 的动作序列。候选指令来自自然语言模板（pick/move/put），affordance network 用视觉/历史记录判断物理可行性，确保规划具备执行力（00:44:28--00:45:40）。

SayCan 打分公式

\[ \text{Score}(a) = \text{LLM}_{\text{task}}(a) \times \text{affordance}_{\text{robot}}(a) \]

LLM 提供语义高分，affordance 控制物理可行；两者任一失衡即被抑制。

Inner Monologue 的反馈闭环

Inner Monologue 在 SayCan 基础上引入 passive/active scene description：被动模块总结当前桌面状态，主动模块向 LLM 提问如“这个 Coke can 已经擦干净了吗”，再由 VQA 或人类答复，最后 success detector 调度重规划（00:51:00--00:54:15）。

主动与被动场景描述

被动描述类似“当前桌面有三个罐子、一个海绵”，用于构建 context；主动描述允许 LLM 询问疑问，success detector 与 VQA 形成闭环反馈。

反馈循环中的噪声

成功检测器若过于宽松会让 LLM 误判完成，太严格又引发无谓重试。系统必须在“信心”与“开放性”间找到平衡，否则 replanning 无法稳定运行（00:52:10--00:53:30）。

问答与调参常识

问答环节揭秘了调参思路：1）LLM 计划须与 success detector 联动，失败就提问；2）Plan API 需要对失败敏感，避免 blind execution；3）dataset diversity 与 labeling 投入要分阶段加码，而非一次性下大赌注（00:34:10--00:35:30）。

问答中的设计常识

听众的问题帮助团队确认：1）需要即时反馈的 LLM ；2）Plan API 要向 failure 敏感；3）语言标注的投入应该随着调研逐步加码。

本章小结

SayCan\slash Inner Monologue 的组合连接了高层意图与低层动作：LLM 负责语义 planning，affordance + success detector 控制执行，active query 与 replanning 保证系统不会盲目执行老计划。

RT-2：语言-视觉-动作的对齐

语言即 Plan API

RT-2 把语言模型当成通用编排器：任何字符串都可以是 plan，比如“bring me a healthy snack”或“move the lonely object to the cluster”。通过 chain-of-thought prompt，LLM 逐步输出“下一动作 + 解释”，随着 PaLM 等更强模型上线，整个系统无需重训练便可提升表现（00:48:59--00:50:20）。

Prompting 的即插即用能力

示例 + 语言指令让 LLM 自动解耦高层意图与基础动作；Plan 只是字符串，可以由人、脚本或 LLM 生成，随着更强模型上线即可 hot swap。

语言重标注与伪标签

在 RT-2 pipeline 中，手动标注 3% 示例后用 CLIP 生成 pseudo label，将自由文本 caption 扩散到其余 97%，再与 simulation、RL、历史 teleop 数据一道训练。CLIP embedding 让同一段轨迹产生“pick red Coke can near sponge”这样的细粒度描述，极大拓宽语义覆盖范围（00:57:20--00:58:40）。

语言作为语义放大器

CLIP embedding 将视觉轨迹重新谱写成自由文本，使得每条演示都能拥有多个 instruction，突破“每 demo 只能对应唯一动作”的限制。

提示工程与开放指令评估

团队借助 Mad Lib 风格 paraphrase、随机噪声以及 LLM 自生成模板扩充 training set，验证系统在“move the lonely red object toward the left cluster”之类指令中的表现（01:01:24--01:01:58）。

标注噪声与泛化

虽然 pseudo label 引入噪声，团队仍在 early stage 控制 noise ratio，并用 success detector 识别可信 caption，证明少量错误不会阻碍模型从大量新指令中学习（01:04:45--01:05:20）。

复现与泛化视角

开放指令集合不再限于 700 个 template，而是允许研究者即兴输入任意语言。测试场景覆盖 duplicate objects、桌角等 unseen layout，RT-2 在 “Duplicate Coke + sponge” 的实验里还能稳定完成任务，体现 CLIP 语言重标注带来的泛化能力（01:01:24--01:01:58）。

本章小结

RT-2 让语言、视觉、动作三者协同：语言定义 plan，CLIP pseudo label 放大语义，自由指令测试检验泛化，整体系统在 duplicate objects 与 novel commands 下也能算出可执行 plan。

工程系统与未来方向

实时推理与硬件约束

实际部署须保证 100ms 以内完成推理，RT-1 因此控制参数量在 35M，token learner + discrete action decoder 降低 compute，CEM actor 只能在有限 discrete action 上搜索。Ted 也承认这是“当前的折中”，未来需要更高效的硬件以支撑更复杂 policy（00:29:30--00:30:20）。

过度依赖 action history 的陷阱

早期让 Transformer 条件于过去动作会让模型跟随 teleoperator，导致迁移到新的机器人时泛化差。RT-1 去除 auto-regressive action history，避免 context-learning 变成 overfit（00:43:30--00:43:55）。

数据平台与标注自动化

数据平台不仅负责采集，还支撑语言重标注：人工审核 + CLIP pseudo label 构成 “人工 + 自动” 的混合流。每次新增语言标注后都会记录 success rate，在表格中用绿色代表新增任务、蓝色代表新场景、橙色代表重复播放，确保数据 breadth 优先于 depth（01:04:24--01:04:58）。

多样数据的三重角色

1）提供基础行为；2）让 language label 具备覆盖面；3）填补 offline dataset 中的 novel instructions 与 unseen scenes gap。只有数据量、语言、模型三方齐头并进，机器人才能展现常识。

Scaling Tests 与指标管理

团队做了三个 ablation：去掉每个任务的 episode、去掉任务种类、去掉整体数据量，success rate 变化表明“任务多样性”影响甚至大于样本总量；但线性关系仍存在，说明只要持续增加数据就能获益（01:04:07--01:04:43）。

干预	观测	启示
减少任务种类	success rate 迅速下降	增加任务指令的语义覆盖更有价值
减少 episode 数	下降较缓	说明 duplicate demo 贡献有限
减少数据量	线性下降	数据量本身仍是 scaling 的驱动

Scaling ablation 的行为日志

机器人与基础模型的互惠

Ted 展望未来：机器人提供 “embodied action + causal” data 给 LLM，LLM 则写 plan 或控制代码。语言模型已经读过教材、docs、UR5 代码，可以用 plan 生成器写出新策略；机器人提供的实体 feedback 则帮助 LLM 更好地理解物理世界。这个互惠生态用“language + robotics” 的组合定调，全局流转 data → model → action → data。

双向增益的未来想象

LLM 生成 plan/代码，机器人反馈 success/failure 信号，LLM 自我改进后插入 planning、data augmentation、low-level control 等模块，最终形成“language + robotics”协同体。

本章小结

工程层面仍受推理速度与数据采集限制，但多模态基础模型带来的互惠理念已在 RT-1、RT-2、SayCan/Inner Monologue 中体现：语言模型提高计划能力，机器人提供实体反馈，数据/模型/架构构成未来突破的三角。

总结与延伸

开放问题

Ted 最后提到未解的难题：如何把自然语言中的“left”“near”“lonely”映射到不同机器人/人理解的实体位置，以及如何用 crowd-generated captions、LLM 的 VQA 进一步对齐这类语义漂移（01:00:21--01:00:59）。

语义定义的边界

词如“left”“near”“lonely”在不同场景语义漂移，靠 success detector 的 active query（“你指哪个 left？”） + 更多 labeled descriptions 短期对齐；长期可引入 3D embedding 或 causal action data 修正偏差。

本讲关键要素

层级	关键工作	引申效果
技能学习（RT-1）	130k teleop demo + token learner + discrete decoder	实现微厨房 90%+ 成功率、强泛化
规划与反馈（SayCan/Inner Monologue）	LLM planning + affordance + success detector	规划期间可 replanning、应对 mid-course 变化
语言-视觉-动作一致性（RT-2）	CLIP pseudo label + 自由指令测试	duplicate objects 与 novel commands 下仍能完成任务

本讲不同层级的机器人基础模型实践

拓展阅读

Brohan et al., “RT-1: Robotics Transformer for Real-World Control at Scale,” RSS 2023.
Ahn et al., “Do As I Can, Not As I Say: Grounding Language in Robotic Affordances (SayCan),” 2022.
Huang et al., “Inner Monologue: Embodied Reasoning through Planning with Language Models,” CoRL 2022.
Brohan et al., “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,” 2023.

本章小结

整场演讲围绕“数据 × 模型 × 语言 × 反馈”建立闭环：RT-1 提供技能基础，SayCan/Inner Monologue 保证 replanning，RT-2 用 language 扩充语义，最终形成一个能回馈实体数据的机器人基础模型生态。