CS224R Lecture 17: 用强化学习推进机器人智能

LaTeX 源码 · 观看视频

字段	内容
作者/整理	基于公开课程资料整理
来源	Stanford Online
日期	2025 年春季

模仿学习 vs 强化学习：实际对比

本讲由 Ashish Kumar 客座讲授，聚焦于 RL 在机器人领域（特别是移动和操作）中的实际应用。讲者首先对比了"实际有效的"模仿学习和强化学习。

IL vs RL 的实践特征

模仿学习：
数据高效，适合能获取高质量演示的场景
性能上限受限于演示者的能力
难以超越人类水平
强化学习：
可以发现超越人类的策略
通常需要仿真环境（sim-to-real transfer）
奖励设计是关键挑战
训练周期长但推理高效

何时选择 RL

RL 的适用条件

RL 在以下场景中相比 IL 更有优势：

有高质量的仿真器可用
任务目标可以用奖励函数量化
需要超越人类演示者的水平
演示数据难以获取（如危险操作）
需要对环境变化具有鲁棒性

本章小结

IL 和 RL 各有适用场景，实际系统中常常结合使用（如 IL warm-start + RL fine-tuning）。

Sim-to-Real Transfer

为什么需要仿真

在真实机器人上做 RL 面临巨大挑战：

数据收集慢（真实时间运行）
安全风险（机器人可能损坏自身或环境）
难以大规模并行化

仿真环境解决了这些问题，但引入了sim-to-real gap：仿真和真实世界之间的差异。

Sim-to-Real Gap 的来源

动力学差异：仿真器无法完美模拟真实物理（摩擦、接触、变形）
感知差异：仿真的视觉/触觉与真实传感器不同
执行器差异：真实电机有延迟、噪声、非线性特性
环境差异：真实环境有未建模的物体、光照变化等

讲者用带外参编码器的训练框架说明：在仿真中随机化质量、摩擦、地形等因素，是把策略迁移到真实机器人前的关键准备步骤。

Domain Randomization

域随机化

Domain Randomization 是弥合 sim-to-real gap 的主要方法之一：

在仿真中随机化各种环境参数（摩擦系数、物体大小、质量、视觉外观、传感器噪声等），使策略在训练阶段就"见过"各种可能的环境变体。

核心假设：如果策略能在足够多样的仿真环境中都表现良好，那么真实世界可以被视为这些变体中的一个。

Domain Randomization 的局限

过度随机化可能导致策略过于保守
需要确保真实世界参数在随机化范围内
对某些物理现象（如软体接触），即使随机化也难以覆盖
选择哪些参数进行随机化以及随机化的范围需要领域知识

本章小结

Sim-to-real transfer 是 RL 用于真实机器人的关键桥梁，domain randomization 是目前最常用的方法。

机器人移动：腿式运动

四足机器人行走

讲者展示了使用 RL 训练四足机器人（如 Unitree Go1/A1）在各种地形上行走的案例。

腿式运动的 RL 框架

状态：关节角度、角速度、IMU 数据（倾斜角、角速度）
动作：每个关节的目标角度（PD 控制器跟踪）
奖励：前进速度 + 能量惩罚 + 姿态惩罚 + 脚步频率奖励
训练：在 Isaac Gym 等 GPU 并行仿真器中进行，可以同时运行数千个环境

Teacher-Student 框架

特权信息蒸馏

一种强大的 sim-to-real 训练范式：

Teacher 阶段：在仿真中训练 teacher 策略，允许访问特权信息（如精确的地形高度图、物体质量、摩擦系数）
Student 阶段：训练 student 策略仅使用真实可用的传感器（如本体感知、摄像头），通过蒸馏模仿 teacher 的行为

Teacher 可以学得更好（因为有更多信息），student 则学会从有限传感器中推断出等效的信息。

部署阶段的关键不是“直接复用仿真策略”，而是根据历史观测在线估计外参并持续校正控制器，这也是现代腿式机器人鲁棒性的核心来源。

本章小结

RL + sim-to-real 已经成为腿式机器人控制的主流范式，teacher-student 框架有效解决了感知受限问题。

机器人操作

灵巧操作的挑战

灵巧操作（如用多指手抓取和操作物体）比移动更具挑战性：

接触动力学高度非线性
状态空间维度更高
任务多样性更大
Sim-to-real gap 在接触建模上更严重

RL 在操作中的应用

讲者展示了多个使用 RL 进行灵巧操作的案例，包括：

旋转魔方（OpenAI Rubik's Cube）
笔旋转（pen spinning）
灵巧抓取（dexterous grasping）

这些任务都使用了大规模并行仿真 + domain randomization + teacher-student 的范式。

本章小结

RL 已经在多种机器人操作任务上展示了超越人类水平的能力，但仿真器质量仍是关键限制因素。

人形机器人

双足行走与全身控制

讲者简要介绍了 RL 在人形机器人上的应用进展：

双足稳定行走
全身协调（同时走路和操作）
对外力扰动的鲁棒性

人形机器人的特殊挑战

相比四足机器人，人形机器人的 RL 训练面临更大挑战：

不稳定的双足支撑（更窄的稳定裕度）
更高的自由度（全身 30+ 关节）
上肢和下肢需要协调
跌倒的后果更严重（硬件昂贵）

本章小结

人形机器人代表了 RL for robotics 的前沿挑战，当前进展快速但离稳定部署仍有距离。

总结与延伸

RL 和 IL 各有优势，实际系统常结合使用
Sim-to-real transfer 是 RL 用于真实机器人的核心流程
Domain randomization 和 teacher-student 框架是弥合 sim-to-real gap 的关键技术
RL 已在腿式运动和灵巧操作上取得突破性进展
人形机器人代表了下一代挑战
仿真器质量和奖励设计仍然是实际应用的瓶颈

拓展阅读

Kumar et al., “Rapid Motor Adaptation (RMA),” RSS 2021
Tobin et al., “Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World,” IROS 2017
OpenAI, “Solving Rubik's Cube with a Robot Hand,” 2019
Rudin et al., “Learning to Walk in Minutes Using Massively Parallel Deep RL,” CoRL 2022
Radosavovic et al., “Real-World Humanoid Locomotion with RL,” Science Robotics 2024