CS224R Lecture 17: 用强化学习推进机器人智能
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | Stanford Online |
| 日期 | 2025 年春季 |

模仿学习 vs 强化学习:实际对比
本讲由 Ashish Kumar 客座讲授,聚焦于 RL 在机器人领域(特别是移动和操作)中的实际应用。讲者首先对比了"实际有效的"模仿学习和强化学习。
IL vs RL 的实践特征
-
模仿学习:
-
数据高效,适合能获取高质量演示的场景
- 性能上限受限于演示者的能力
- 难以超越人类水平
-
强化学习:
-
可以发现超越人类的策略
- 通常需要仿真环境(sim-to-real transfer)
- 奖励设计是关键挑战
- 训练周期长但推理高效
何时选择 RL
RL 的适用条件
RL 在以下场景中相比 IL 更有优势:
- 有高质量的仿真器可用
- 任务目标可以用奖励函数量化
- 需要超越人类演示者的水平
- 演示数据难以获取(如危险操作)
- 需要对环境变化具有鲁棒性
本章小结
IL 和 RL 各有适用场景,实际系统中常常结合使用(如 IL warm-start + RL fine-tuning)。
Sim-to-Real Transfer
为什么需要仿真
在真实机器人上做 RL 面临巨大挑战:
- 数据收集慢(真实时间运行)
- 安全风险(机器人可能损坏自身或环境)
- 难以大规模并行化
仿真环境解决了这些问题,但引入了sim-to-real gap:仿真和真实世界之间的差异。
Sim-to-Real Gap 的来源
- 动力学差异:仿真器无法完美模拟真实物理(摩擦、接触、变形)
- 感知差异:仿真的视觉/触觉与真实传感器不同
- 执行器差异:真实电机有延迟、噪声、非线性特性
- 环境差异:真实环境有未建模的物体、光照变化等

Domain Randomization
域随机化
Domain Randomization 是弥合 sim-to-real gap 的主要方法之一:
在仿真中随机化各种环境参数(摩擦系数、物体大小、质量、视觉外观、传感器噪声等),使策略在训练阶段就"见过"各种可能的环境变体。
核心假设:如果策略能在足够多样的仿真环境中都表现良好,那么真实世界可以被视为这些变体中的一个。
Domain Randomization 的局限
- 过度随机化可能导致策略过于保守
- 需要确保真实世界参数在随机化范围内
- 对某些物理现象(如软体接触),即使随机化也难以覆盖
- 选择哪些参数进行随机化以及随机化的范围需要领域知识
本章小结
Sim-to-real transfer 是 RL 用于真实机器人的关键桥梁,domain randomization 是目前最常用的方法。
机器人移动:腿式运动
四足机器人行走
讲者展示了使用 RL 训练四足机器人(如 Unitree Go1/A1)在各种地形上行走的案例。
腿式运动的 RL 框架
- 状态:关节角度、角速度、IMU 数据(倾斜角、角速度)
- 动作:每个关节的目标角度(PD 控制器跟踪)
- 奖励:前进速度 + 能量惩罚 + 姿态惩罚 + 脚步频率奖励
- 训练:在 Isaac Gym 等 GPU 并行仿真器中进行,可以同时运行数千个环境
Teacher-Student 框架
特权信息蒸馏
一种强大的 sim-to-real 训练范式:
- Teacher 阶段:在仿真中训练 teacher 策略,允许访问特权信息(如精确的地形高度图、物体质量、摩擦系数)
- Student 阶段:训练 student 策略仅使用真实可用的传感器(如本体感知、摄像头),通过蒸馏模仿 teacher 的行为
Teacher 可以学得更好(因为有更多信息),student 则学会从有限传感器中推断出等效的信息。

本章小结
RL + sim-to-real 已经成为腿式机器人控制的主流范式,teacher-student 框架有效解决了感知受限问题。
机器人操作
灵巧操作的挑战
灵巧操作(如用多指手抓取和操作物体)比移动更具挑战性:
- 接触动力学高度非线性
- 状态空间维度更高
- 任务多样性更大
- Sim-to-real gap 在接触建模上更严重
RL 在操作中的应用
讲者展示了多个使用 RL 进行灵巧操作的案例,包括:
- 旋转魔方(OpenAI Rubik's Cube)
- 笔旋转(pen spinning)
- 灵巧抓取(dexterous grasping)
这些任务都使用了大规模并行仿真 + domain randomization + teacher-student 的范式。
本章小结
RL 已经在多种机器人操作任务上展示了超越人类水平的能力,但仿真器质量仍是关键限制因素。
人形机器人
双足行走与全身控制
讲者简要介绍了 RL 在人形机器人上的应用进展:
- 双足稳定行走
- 全身协调(同时走路和操作)
- 对外力扰动的鲁棒性
人形机器人的特殊挑战
相比四足机器人,人形机器人的 RL 训练面临更大挑战:
- 不稳定的双足支撑(更窄的稳定裕度)
- 更高的自由度(全身 30+ 关节)
- 上肢和下肢需要协调
- 跌倒的后果更严重(硬件昂贵)
本章小结
人形机器人代表了 RL for robotics 的前沿挑战,当前进展快速但离稳定部署仍有距离。
总结与延伸
- RL 和 IL 各有优势,实际系统常结合使用
- Sim-to-real transfer 是 RL 用于真实机器人的核心流程
- Domain randomization 和 teacher-student 框架是弥合 sim-to-real gap 的关键技术
- RL 已在腿式运动和灵巧操作上取得突破性进展
- 人形机器人代表了下一代挑战
- 仿真器质量和奖励设计仍然是实际应用的瓶颈
拓展阅读
- Kumar et al., “Rapid Motor Adaptation (RMA),” RSS 2021
- Tobin et al., “Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World,” IROS 2017
- OpenAI, “Solving Rubik's Cube with a Robot Hand,” 2019
- Rudin et al., “Learning to Walk in Minutes Using Massively Parallel Deep RL,” CoRL 2022
- Radosavovic et al., “Real-World Humanoid Locomotion with RL,” Science Robotics 2024