跳转至

CS231N Lecture 17: Robot Learning

LaTeX 源码 · 备用 PDF · 观看视频

字段 内容
作者/整理 基于 Yunzhu Li 授课内容整理
来源 Stanford CS231N
日期 2025

CS231N Lecture 17: Robot Learning

引言与问题建模

本次客座讲座由哥伦比亚大学助理教授 Yunzhu Li 主讲。他领导着 Robotic Perception, Interaction and Learning(RPIL)实验室,研究方向聚焦在机器人学习——让机器人更好地感知和与物理世界交互。本讲系统介绍了机器人学习的核心范式:从问题建模、感知、强化学习、模型学习、模仿学习,到最新的机器人基础模型。

讲座概览:Robot Learning 涉及问题建模、感知、强化学习、模型学习、模仿学习与基础模型等多个方面

来源:Slides 第2页。

从监督学习到机器人学习

在 CS231N 课程中,同学们已经学习了监督学习(给定输入 \(X\) 和标签 \(Y\),学习从 \(X\)\(Y\) 的映射)和自监督学习(仅使用无标注数据提取隐含结构)。机器人学习与之有根本性的区别:

机器人学习的核心特征

机器人学习是一个序列决策问题。机器人不仅要理解世界,还要与世界交互——它采取的动作会改变环境状态,环境会给出新的观测和奖励。目标是找到一系列动作,使得累积奖励最大化(或累积代价最小化)。

机器人学习的通用框架:Agent 接收任务目标和环境状态,输出动作,环境返回新状态和奖励

来源:Slides 第4页。

这一框架由四个核心要素组成:

  • 目标(Goal):任务的定义,如自然语言指令或目标函数
  • 状态(State):环境的当前描述,如关节角度、图像观测等
  • 动作(Action):Agent 对环境施加的操控,如力矩、位移等
  • 奖励(Reward):环境对动作效果的反馈信号

问题实例化

多种机器人学习问题的实例:CartPole 平衡、机器人运动、Atari 游戏、围棋等

来源:Slides 第5页。

同样的框架可以描述极为不同的问题:

场景 目标 状态 动作 奖励
CartPole 保持杆平衡 角度/角速度/位置 水平力 每步杆立直=1
机器人运动 向前行走 关节角度/速度 关节力矩 每步前进=1
Atari 游戏 最高分 游戏画面像素 上下左右 分数增减
围棋 赢棋 棋盘状态 落子位置 赢=1,输=0
叠衣服 整齐叠放 多视角 RGB-D 夹爪运动 叠好=1
不同任务场景下四要素的具体化

机器人学习 vs 计算机视觉

计算机视觉主要关注从高维输入中学习表征(如分类、检测)。机器人学习则是一个约束优化问题——物理世界是约束,目标函数定义在任务目标上,决策变量是动作序列。这是两者的根本区别。

奖励设计的微妙之处

即使是“叠衣服”这样看似简单的任务,奖励也可以有多种定义:面积最小?最平整?特定折法?不同用户有不同偏好。奖励设计(reward shaping)本身是一个充满微妙权衡的研究方向。

本章小结

机器人学习的核心是序列决策问题,通过目标、状态、动作、奖励四要素建模。与标准的监督学习不同,机器人的动作会影响后续状态,形成闭环交互。

机器人感知

感知的独特挑战

机器人感知面临的挑战远超传统计算机视觉:

机器人感知面临的挑战:不完整信息、遮挡、传感器误差、动态环境、可形变物体等

来源:Slides 第10页。

  • 观测只包含环境的不完整信息(遮挡、部分可观测)
  • 传感器数据存在噪声和误差
  • 动作执行可能失败(如抓取滑落)
  • 环境包含刚体、可形变物体(布料、液体)、甚至其他智能体(人、动物)
  • 环境是动态变化的

多模态感知

机器人的多模态传感器:视觉(RGB/RGBD)、触觉、听觉、深度传感器协同工作

来源:Slides 第11页。

在机器人领域,仅依赖摄像头远远不够。研究者会尽可能多地为机器人配备传感器:

  • 触觉传感:判断抓取是否稳定
  • 音频信息:感知物理接触事件
  • 深度信息:获取三维几何
  • 摄像头:宏观环境状态

这些传感器互补协作,为机器人提供全面的环境理解。

机器人视觉的三大特征

机器人视觉的三大特征:具身性(Embodied)、主动性(Active)、情境性(Situated)

来源:Slides 第13页。

机器人视觉 \(≠\) 计算机视觉

  1. 具身性(Embodied):机器人有物理躯体,直接在物理世界中体验,动作会即时影响自身的感知
  2. 主动性(Active):机器人是主动感知者,它知道自己想感知什么,能选择何时、何处、如何感知(如移动头部看桌子后方)
  3. 情境性(Situated):机器人处于真实世界中,感知必须与当前任务紧密耦合——扣扣子时只需关注按钮局部区域

计算机视觉中的实例分割(左)vs 机器人视觉中的主动交互感知(右):机器人通过推动物体来判断是一个整体还是多个堆叠部件

来源:Slides 第12页。

本章小结

机器人感知不同于被动的计算机视觉。它是具身的、主动的、情境化的。机器人需要多模态传感器协同工作,并且感知系统需要与下游决策系统紧密耦合,实现闭环的感知-行动循环。

强化学习

基本框架

强化学习框架:环境给 Agent 状态 \(s_t\),Agent 选择动作 \(a_t\),环境返回奖励 \(r_t\) 和新状态 \(s_t+1\)

来源:Slides 第15页。

强化学习(RL)的核心思想是让 Agent 通过与环境的大量“试错”交互来学习最优策略:执行动作 \(\rightarrow\) 获得奖励 \(\rightarrow\) 调整策略,使高奖励动作出现的概率增大。

强化学习 vs 监督学习

强化学习(左)与监督学习(右)的对比

来源:Slides 第16页。

强化学习与监督学习的四大关键差异

  1. 环境随机性:相同动作可能导致不同结果(如推箱子时因摩擦力不均匀旋转角度不同)
  2. 信用分配(Credit Assignment):奖励可能延迟到很久之后才出现(如围棋直到终局才知道胜负),需要将结果归因到早期决策
  3. 不可微分性:物理环境通常不可微,无法直接计算 \(\frac{\partial r}{\partial a}\),需要大量采样做零阶梯度估计
  4. 非稳态性:Agent 的动作会改变后续状态的分布,与监督学习中数据点互相独立截然不同

Q-Learning 与 DQN

DQN 架构:以游戏画面为输入,经 CNN 提取特征,输出每个动作的 Q 值

来源:Slides 第19页。

Q 函数 \(Q(s, a)\) 衡量在状态 \(s\) 下执行动作 \(a\) 后的折扣期望未来累积奖励。学习 Q 函数后,决策变得简单:选择使 Q 值最大的动作。

\[ \pi^*(s) = \arg\max_a Q(s, a) \]

DeepMind 的 DQN 将 Q 函数实例化为深度卷积网络,以 Atari 游戏画面为输入,展示了令人惊叹的结果:训练 4 小时后,Agent 在 Breakout 游戏中发现了人类都不知道的“隧道策略”——将球打穿砖墙上方,实现高效消除。

从游戏到现实:强化学习的突破

AlphaGo 及其后续演进:AlphaGo \(→\) AlphaGo Zero \(→\) AlphaZero \(→\) MuZero

来源:Slides 第23页。

Bitter Lesson:简单方法 + 规模化

AlphaGo 到 AlphaGo Zero 的演进体现了 Rich Sutton 提出的“苦涩教训”(Bitter Lesson):找到与规模化最兼容的简单方法,往往比精巧复杂的方法表现更好。AlphaGo Zero 去掉了所有人类知识的初始化,纯靠自我对弈,反而超越了原始 AlphaGo。

真实物理世界中的强化学习:ETH 的四足机器人在雪地、泥泞中稳健行走(左),Unitree 机器人展示极限运动能力(右)

来源:Slides 第25页。

在真实物理世界中,ETH 2020 年在 Science Robotics 上发表的工作令人印象深刻:在仿真中训练的四足机器人策略,直接迁移到真实的雪地、泥泞等复杂地形中,依然表现出色。关键技术是域随机化(Domain Randomization)——大量随机化仿真环境的物理参数(摩擦系数、地形几何等),使真实世界成为随机化分布中的一个采样点。

机器人运动控制接近“已解决”

在运动控制(locomotion)领域,强化学习 + Sim-to-Real 迁移已经是成熟的解决方案。仿真不需要完美模拟所有细节(如灌木丛、积雪),只要充分随机化关键物理参数,策略就能在真实环境中鲁棒工作。

强化学习的局限性

强化学习的关键挑战:需要大量交互、安全问题、Sim-to-Real 差距在操作任务中依然显著

来源:Slides 第28页。

尽管在游戏和运动控制中取得了巨大成功,强化学习在操作(manipulation)任务中仍面临严峻挑战:

  • 样本效率极低:AlphaGo Zero 需要等价于 3000 年人类知识的计算量
  • 安全性:训练过程中的“奇怪行为”在真实机器人上可能导致灾难性失败
  • 可解释性差:出错时难以诊断和修正
  • 操作任务中 Sim-to-Real 差距更大:仿真中抓取成功但真实中物体滑落,这种“质变”型差异难以通过域随机化消除

本章小结

强化学习通过试错交互学习最优策略,在游戏和运动控制领域取得了超人表现。然而,其在操作任务中因样本效率、安全性和 Sim-to-Real 差距等问题仍受限。这催生了模型学习和模仿学习等替代方案。

模型学习与基于模型的规划

从试错到想象

模型学习框架:学习物理世界的近似模型,在虚拟域中预测动作效果,指导真实世界中的动作决策

来源:Slides 第31页。

人类之所以能高效地与环境交互,是因为我们拥有直觉物理模型——能想象动作的后果。模型学习(Model Learning)试图赋予机器人类似的能力。

前向模型与逆规划

  • 前向模型(Forward Model):给定当前状态 \(s_t\) 和动作 \(a_t\),预测下一状态 \(s_{t+1}\)
  • 规划(Planning):前向模型的逆问题——给定当前状态 \(s_t\) 和目标状态 \(s^*\),求解动作序列 \(\{a_t, a_{t+1}, \ldots\}\) 使预测轨迹尽可能接近目标

规划的优化过程:

\[ \min_{\{a_t\}} \sum_{t} \| f(s_t, a_t) - s^*_t \|^2 \]

其中 \(f\) 是学习到的前向模型。实际执行时采用MPC(模型预测控制)策略:只执行优化出的第一个动作,获取真实环境的新状态后重新规划,以应对模型误差。

状态表征的选择

状态表征对模型学习至关重要。不同任务需要不同粒度的表征:

三种状态表征:像素动力学(左上)、关键点动力学(左下)、粒子动力学(右)

来源:Slides 第35页。

  1. 像素动力学:直接以 2D 图像为状态,预测动作后图像如何变化。代表工作:Deep Visual Foresight
  2. 关键点动力学:用 3D 关键点追踪物体,预测关键点的运动。适用于中等自由度的物体操控
  3. 粒子动力学:用点集表示物体,预测粒子在动作下的运动。适用于高自由度物体(如颗粒物料、可形变物体)

实例:饺子机器人

饺子制作机器人:配备 15 种 3D 打印工具和 4 个 RGBD 相机,通过粒子动力学模型进行工具选择和动作规划

来源:Slides 第39页。

这项在 Stanford 完成的工作展示了模型学习的强大能力:机器人配备 15 种 3D 打印工具和 4 个 RGBD 相机,通过学习面团的粒子动力学模型,自主决策工具选择和动作规划,从一团面团制作出完整的饺子。

该系统的决策分为两个层次:

  • 高层决策:选择使用哪种工具(分类器)
  • 低层决策:给定工具,规划具体的运动轨迹

学习模型 vs 物理仿真器

实验表明,直接从真实世界交互数据学习的神经动力学模型,比精心调参的基于物理的仿真器(如 MPM 材料点方法)预测精度更高。这为“数据驱动的物理模型”提供了有力证据。

本章小结

模型学习通过学习环境的前向预测模型,让机器人能“想象”动作的后果,从而进行高效规划。关键要素包括:合适的状态表征(像素/关键点/粒子)、准确的前向模型、以及 MPC 式的闭环执行。这种方法比纯强化学习更数据高效、更安全。

模仿学习

从试错到示教

模仿学习的基本思想:从人类示教数据中学习策略 \(_θ: o a\)

来源:Slides 第47页。

模仿学习(Imitation Learning)是当前机器人学习中最实用的方法。其核心思想:收集大量人类执行任务的示教数据 \((o_t, a_t)\),用监督学习训练策略网络 \(\pi_\theta\),直接从观测映射到动作。

行为克隆(Behavior Cloning)

最简单的模仿学习算法。给定专家示教数据集 \(\{(o_i, a_i)\}\),通过最小化预测动作与专家动作之间的损失来训练策略:

\[ \min_\theta \sum_i \mathcal{L}(\pi_\theta(o_i), a_i) \]

优点是简单高效——早上收集数据,下午训练模型,晚上就有工作策略。

级联误差问题

级联误差(Cascading Error):小误差逐步累积放大,导致策略偏离示教轨迹

来源:Slides 第49页。

行为克隆的致命缺陷:级联误差

由于机器人学习是序列决策问题,一个微小的预测误差会导致状态偏离训练数据的分布,在新状态下策略产生更大的误差,进而更大偏离——误差沿时间轴指数级放大。这与标准监督学习中数据点独立的假设截然不同。

解决方案是迭代式数据收集

  1. 收集初始专家示教
  2. 训练策略并在真实环境中执行
  3. 观察失败案例,收集纠正行为数据
  4. 将纠正数据加入训练集,重新训练
  5. 重复上述过程直到策略足够鲁棒

逆强化学习

除了直接学习动作映射,另一条思路是逆强化学习(Inverse RL):从示教数据中推断隐含的奖励函数,再用标准强化学习来学习策略。经典案例包括 Stanford 的 Pieter Abbeel 和 Andrew Ng 利用此方法控制遥控直升机完成极限飞行动作。

扩散策略(Diffusion Policy)

扩散策略:借鉴扩散模型的去噪过程来生成动作序列,显著提升了策略对多模态示教的处理能力

来源:Slides 第55页。

近年来模仿学习最重要的进展之一是扩散策略(Diffusion Policy),将扩散模型引入策略函数类:

从生成模型到策略学习

  • 隐式行为克隆(Implicit BC):借鉴能量基模型(EBM),学习 \((o, a) \mapsto \text{score}\),通过优化推理动作
  • 扩散策略:借鉴扩散模型,通过逐步去噪生成动作序列,天然处理多模态分布

两者都从深度学习的生成模型发展中汲取灵感,显著提升了对复杂操作任务的处理能力。

扩散策略展示了极为丰富的操作能力:涂抹黄油、煎蛋、削土豆皮、滑动书本等精细操作,都能在真实世界中可靠执行。

本章小结

模仿学习是目前获得真实世界工作策略的最高效途径。行为克隆虽然简单,但面临级联误差问题,需要迭代式数据收集来缓解。扩散策略等新方法从生成模型领域引入先进技术,显著提升了策略的表达能力和鲁棒性。

机器人基础模型

从专用策略到基础模型

机器人基础模型的发展时间线:RT-1 \(→\) RT-2 \(→\) RT-X \(→\) OpenVLA \(→_0\) 等

来源:Slides 第60页。

机器人基础模型的定义

机器人基础模型是一种广泛泛化的策略,其输出的动作可能不是最优的,但在给定任何合理的观测和语言指令条件下,总是能生成平滑、合理、可在真实世界执行的动作轨迹。这类似于大语言模型——回答可能不完美,但总是“有道理”的。

这些模型有多种名称(Vision-Language-Action Models / VLAs、大行为模型 / Large Behavior Models),但本质相同:从观测和任务指令映射到可广泛泛化的动作输出。

\(_0\):一个具体案例

\(_0\) 框架:大规模多源数据预训练 \(+\) 视觉语言模型初始化 \(+\) 任务特定后训练

来源:Slides 第63页。

\(\pi_0\)(Physical Intelligence 于 2024 年 10 月发布)的设计包含三个关键阶段:

  1. 数据聚合:汇集学术界和自采集的大量多机器人、多任务数据
  2. 预训练:从预训练的视觉语言模型出发,用动作预测和 VQA 双重目标共同微调——既保留语义知识,又学会预测动作
  3. 后训练(Post-training):收集特定任务数据,对基座模型进行微调以达到高性能

\(_0\) 的三级评估:零样本基座模型、后训练的分布内任务、后训练的新任务

来源:Slides 第64页。

为什么基础模型路线可行?

机器人基础模型的成功来自三个因素:

  1. 视觉语言模型的语义知识迁移:预训练 VLM 已理解“抽屉”、“把手”等概念,这些知识可直接用于机器人任务
  2. 大规模多源数据:跨机器人、跨任务的数据带来泛化能力
  3. 扩散模型等表达力强的策略类:能处理多模态动作分布

当前挑战

机器人学习面临的核心挑战:数据规模不足、泛化鸿沟、评估标准化缺失

来源:Slides 第69页。

尽管进展迅速,机器人基础模型仍面临重大挑战:

  • 数据不足:机器人数据的规模远不及语言/视觉数据。数据收集依赖人类遥操作,速度比人类直接操作更慢
  • 泛化不够:在“野外”环境(非实验室设置)中的泛化能力仍不足
  • 评估困难:缺乏标准化的大规模评估基准,难以客观比较不同方法的进展
  • 执行效率:当前机器人执行任务远慢于人类

本章小结

机器人基础模型借鉴大语言模型的成功经验,通过大规模多源数据预训练和任务特定后训练,追求广泛泛化的机器人策略。\(\pi_0\) 等工作展示了令人鼓舞的进展,但数据规模、泛化能力和评估标准仍是关键瓶颈。

总结与延伸

全课知识图谱

本讲构建了机器人学习的完整认知框架:

TikZ diagram

关键 Takeaways

五条核心洞见

  1. 机器人学习 \(\neq\) 计算机视觉:它是序列决策问题,动作影响未来状态,需要处理随机性、延迟奖励和不可微环境
  2. 运动控制接近解决,操作仍是开放问题:RL + Sim-to-Real 在 locomotion 中非常成功,但 manipulation 中 Sim-to-Real 差距更大
  3. 模型学习是“想象力”:学习环境的前向模型,让机器人能预测动作后果,比纯试错更高效
  4. 模仿学习是最实用的方法:通过人类示教快速获得工作策略,扩散策略等新方法大幅提升表达能力
  5. 基础模型是未来方向:融合视觉语言知识和大规模机器人数据,追求广泛泛化的通用策略

拓展阅读

  • Mnih et al., “Playing Atari with Deep Reinforcement Learning” (DQN), 2013
  • Silver et al., “Mastering the game of Go” (AlphaGo), Nature 2016
  • Lee et al., “Learning quadrupedal locomotion over challenging terrain”, Science Robotics 2020
  • OpenAI, “Solving Rubik's Cube with a Robot Hand”, 2019
  • Chi et al., “Diffusion Policy”, RSS 2023
  • Black et al., “\(\pi_0\): A Vision-Language-Action Flow Model for General Robot Control”, 2024
  • Yunzhu Li AAAI 2025 Tutorial: Robotic Foundation Models