跳转至

[CS25] Generalist Agents in Open-Ended Worlds — Jim Fan, NVIDIA

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于公开课程资料整理
来源 Stanford CS25: Transformers United
日期 Fall 2023

[CS25] Generalist Agents in Open-Ended Worlds — Jim Fan, NVIDIA

引言:从被动观察到主动交互

Jim Fan 是 NVIDIA 的高级 AI 研究科学家,致力于构建通用 AI 智能体。本讲以一个经典实验开场:1963 年 MIT 的 Held & Hein 实验——两只新生小猫被连接在同一装置中,一只主动行走,一只被动跟随。结果只有主动的小猫发展出健康的视觉-运动系统。

具身主动经验的核心地位

Held-Hein 实验表明:仅仅“看到”世界是不够的,智能体必须通过主动交互来真正理解物理世界。这一洞察深刻影响了 Jim Fan 的研究方向——构建能在开放世界中主动行动的通用智能体。

MineDojo:Minecraft 作为 AI 实验平台

为什么选择 Minecraft

Minecraft 是全球最畅销的游戏,其开放世界具备几个独特优势:

  • 开放式目标体系:没有固定通关条件,智能体需要自主设定和追求目标
  • 丰富的多模态数据:YouTube 上有超过 1000 亿字的 Minecraft 视频和教程
  • 复杂的生存和创造任务:从基础采集到建造复杂电路

MineDojo 平台

MineDojo 是 Jim Fan 团队构建的大规模开放研究平台,包含 Minecraft 模拟器 API、数千个任务、以及从互联网收集的海量多模态数据(视频、Wiki、Reddit 帖子)。获得了 NeurIPS 2022 杰出论文奖。

MineCLIP:视频-文本对齐

团队训练了 MineCLIP 模型,利用 YouTube 视频和对应的旁白/字幕进行对比学习,实现 Minecraft 世界中的视觉-语言对齐。这为后续的开放式任务指定提供了通用奖励函数。

本章小结

Minecraft 的开放性和丰富数据使其成为研究通用智能体的理想沙盒。

Voyager:首个 LLM 驱动的开放世界智能体

三大核心模块

Voyager 架构

  1. 自动课程(Automatic Curriculum):GPT-4 根据当前探索状态自动生成下一个目标,驱动持续探索
  2. 迭代提示与代码生成:GPT-4 编写 JavaScript 控制代码,通过环境反馈和自我反思迭代修正
  3. 技能库(Skill Library):成功的程序被存入可复用的代码库,类似于一个由 LLM 自主编写的代码仓库

迭代代码修正

Voyager 的代码生成采用闭环设计:环境执行器返回错误信息(如 JavaScript 未定义变量),GPT-4 “批评家”分析任务完成进度,据此修正代码。例如,任务“制作望远镜”时,批评家会检查库存中的铜和紫水晶数量是否充足。

技能库的复合增长

终身学习的关键

技能库使 Voyager 避免重复“发明轮子”:一旦学会某个技能(如“挖铁矿”),面对类似情境时直接从库中检索,而非重新通过昂贵的 LLM 迭代来解决。这实现了能力的递归式积累。

实验结果

Voyager 在 Minecraft 中展现出远超基线方法(ReAct、Reflexion、AutoGPT)的性能:

  • 发现新物品的速度快 3.3 倍
  • 旅行距离远 2.3 倍
  • 能解锁整个科技树,而其他方法被卡在早期阶段

本章小结

Voyager 证明 LLM 可以作为通用智能体的“大脑”,通过代码生成和技能积累实现开放世界中的终身学习。

Eureka:LLM 作为奖励函数设计师

奖励设计的困境

强化学习的核心瓶颈之一是奖励函数设计。手工设计的奖励往往脆弱、稀疏,且难以迁移。

Eureka 的核心思想

让 GPT-4 自动编写奖励函数代码,通过进化搜索和环境反馈迭代优化。Eureka 在 29 个 Isaac Gym 机器人任务上超越了人类专家设计的奖励函数,且不需要任何任务特定的提示工程。

灵巧手操作

Eureka 最引人注目的成果是让 Shadow Hand(灵巧手)学会了旋转笔的技能——这是此前从未通过 RL 实现过的复杂操作。

本章小结

Eureka 将 LLM 的代码生成能力引入奖励设计,开辟了“LLM-in-the-loop” RL 的新范式。

VIMA:多模态提示的通用机器人

VIMA 提出了一种多模态提示范式:任务指令不仅包含文本,还可以包含目标图像、视频演示等。模型学习从多模态提示推断任务意图并执行。

跨形态泛化

团队进一步探索了跨不同机器人形态(如机械臂、四足、人形)的统一策略训练,发现物理形态本身可以被视为另一种“模态”,实现跨形态的正向迁移。

本章小结

VIMA 说明机器人策略不必只依赖文本提示,任务意图本身可以通过多模态示例直接注入系统。

统一视角:环境、记忆与奖励的闭环

为什么这些工作能串成一条线

MineDojo、Voyager、Eureka 和 VIMA 看似分别关注环境平台、开放世界探索、奖励设计和多模态控制,但它们其实共享一个统一结构:环境负责提供可交互反馈,记忆负责积累可复用经验,奖励负责把长期目标变成局部改进信号。缺掉任何一环,智能体都很难持续成长。

Embodied agent 的三个长期瓶颈

  1. 探索瓶颈:没有足够丰富的交互经验,系统学不到真正稀有的技能。
  2. 记忆瓶颈:如果经验不能复用,智能体每次都像第一次做任务。
  3. 信用分配瓶颈:长期目标太远时,奖励函数很难准确告诉模型哪一步做对了。

技能库其实是一种外部记忆

Voyager 最值得借鉴的不只是 GPT-4 写代码,而是它把成功代码沉淀成可检索技能。这和现代 agent 的 tool library、memory store、本地代码库非常相似。本质上,系统正在把“一次成功轨迹”转化为“下次可直接调用的策略原语”。

本章小结

具身智能体要想持续进步,必须把环境反馈、外部记忆和奖励设计整合成稳定闭环。

走向真实机器人系统的工程约束

仿真成功并不等于现实可用

从 Minecraft 到 Isaac Gym,再到真实机器人,最大的鸿沟往往不是任务描述,而是执行代价。现实机器人存在硬件磨损、视觉遮挡、传感器噪声和安全边界,一次错误动作的成本远高于仿真环境里的“重来一次”。

不要把仿真中的快速迭代误当作现实世界可复制

LLM 可以在仿真里高速写代码、改奖励、跑搜索,但真实机器人系统通常需要速率限制、碰撞检测、人工确认和回滚策略。否则,一个看似聪明的策略很快会演变成硬件风险。

未来系统更像分层控制栈

一个现实可落地的 embodied agent 更可能由多层系统组成:高层 LLM 负责目标分解和策略选择,中层 planner 负责任务约束与状态估计,底层 controller 处理毫秒级闭环控制。课程中介绍的这些研究,实际上分别强化了这条栈中的不同层。

本章小结

具身智能真正走向现实之前,必须接受控制系统、安全约束和运维成本带来的工程边界。

总结与延伸

本讲展示了从虚拟世界(Minecraft)到物理世界(真实机器人)的通用智能体构建路径。核心哲学是:“如果人类能做到,AI 为什么不能?”——关键在于主动交互、终身学习和跨域迁移。

拓展阅读

  • Fan et al., “MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge”, NeurIPS 2022
  • Wang et al., “Voyager: An Open-Ended Embodied Agent with Large Language Models”, 2023
  • Ma et al., “Eureka: Human-Level Reward Design via Coding Large Language Models”, 2023
  • Jiang et al., “VIMA: General Robot Manipulation with Multimodal Prompts”, 2023