[CS25] Generalist Agents in Open-Ended Worlds — Jim Fan, NVIDIA

LaTeX 源码

字段	内容
作者/整理	基于公开课程资料整理
来源	Stanford CS25: Transformers United
日期	Fall 2023

引言：从被动观察到主动交互

Jim Fan 是 NVIDIA 的高级 AI 研究科学家，致力于构建通用 AI 智能体。本讲以一个经典实验开场：1963 年 MIT 的 Held & Hein 实验——两只新生小猫被连接在同一装置中，一只主动行走，一只被动跟随。结果只有主动的小猫发展出健康的视觉-运动系统。

具身主动经验的核心地位

Held-Hein 实验表明：仅仅“看到”世界是不够的，智能体必须通过主动交互来真正理解物理世界。这一洞察深刻影响了 Jim Fan 的研究方向——构建能在开放世界中主动行动的通用智能体。

MineDojo：Minecraft 作为 AI 实验平台

为什么选择 Minecraft

Minecraft 是全球最畅销的游戏，其开放世界具备几个独特优势：

开放式目标体系：没有固定通关条件，智能体需要自主设定和追求目标
丰富的多模态数据：YouTube 上有超过 1000 亿字的 Minecraft 视频和教程
复杂的生存和创造任务：从基础采集到建造复杂电路

MineDojo 平台

MineDojo 是 Jim Fan 团队构建的大规模开放研究平台，包含 Minecraft 模拟器 API、数千个任务、以及从互联网收集的海量多模态数据（视频、Wiki、Reddit 帖子）。获得了 NeurIPS 2022 杰出论文奖。

MineCLIP：视频-文本对齐

团队训练了 MineCLIP 模型，利用 YouTube 视频和对应的旁白/字幕进行对比学习，实现 Minecraft 世界中的视觉-语言对齐。这为后续的开放式任务指定提供了通用奖励函数。

本章小结

Minecraft 的开放性和丰富数据使其成为研究通用智能体的理想沙盒。

Voyager：首个 LLM 驱动的开放世界智能体

三大核心模块

Voyager 架构

自动课程（Automatic Curriculum）：GPT-4 根据当前探索状态自动生成下一个目标，驱动持续探索
迭代提示与代码生成：GPT-4 编写 JavaScript 控制代码，通过环境反馈和自我反思迭代修正
技能库（Skill Library）：成功的程序被存入可复用的代码库，类似于一个由 LLM 自主编写的代码仓库

迭代代码修正

Voyager 的代码生成采用闭环设计：环境执行器返回错误信息（如 JavaScript 未定义变量），GPT-4 “批评家”分析任务完成进度，据此修正代码。例如，任务“制作望远镜”时，批评家会检查库存中的铜和紫水晶数量是否充足。

技能库的复合增长

终身学习的关键

技能库使 Voyager 避免重复“发明轮子”：一旦学会某个技能（如“挖铁矿”），面对类似情境时直接从库中检索，而非重新通过昂贵的 LLM 迭代来解决。这实现了能力的递归式积累。

实验结果

Voyager 在 Minecraft 中展现出远超基线方法（ReAct、Reflexion、AutoGPT）的性能：

发现新物品的速度快 3.3 倍
旅行距离远 2.3 倍
能解锁整个科技树，而其他方法被卡在早期阶段

本章小结

Voyager 证明 LLM 可以作为通用智能体的“大脑”，通过代码生成和技能积累实现开放世界中的终身学习。

Eureka：LLM 作为奖励函数设计师

奖励设计的困境

强化学习的核心瓶颈之一是奖励函数设计。手工设计的奖励往往脆弱、稀疏，且难以迁移。

Eureka 的核心思想

让 GPT-4 自动编写奖励函数代码，通过进化搜索和环境反馈迭代优化。Eureka 在 29 个 Isaac Gym 机器人任务上超越了人类专家设计的奖励函数，且不需要任何任务特定的提示工程。

灵巧手操作

Eureka 最引人注目的成果是让 Shadow Hand（灵巧手）学会了旋转笔的技能——这是此前从未通过 RL 实现过的复杂操作。

本章小结

Eureka 将 LLM 的代码生成能力引入奖励设计，开辟了“LLM-in-the-loop” RL 的新范式。

VIMA：多模态提示的通用机器人

VIMA 提出了一种多模态提示范式：任务指令不仅包含文本，还可以包含目标图像、视频演示等。模型学习从多模态提示推断任务意图并执行。

跨形态泛化

团队进一步探索了跨不同机器人形态（如机械臂、四足、人形）的统一策略训练，发现物理形态本身可以被视为另一种“模态”，实现跨形态的正向迁移。

本章小结

VIMA 说明机器人策略不必只依赖文本提示，任务意图本身可以通过多模态示例直接注入系统。

统一视角：环境、记忆与奖励的闭环

为什么这些工作能串成一条线

MineDojo、Voyager、Eureka 和 VIMA 看似分别关注环境平台、开放世界探索、奖励设计和多模态控制，但它们其实共享一个统一结构：环境负责提供可交互反馈，记忆负责积累可复用经验，奖励负责把长期目标变成局部改进信号。缺掉任何一环，智能体都很难持续成长。

Embodied agent 的三个长期瓶颈

探索瓶颈：没有足够丰富的交互经验，系统学不到真正稀有的技能。
记忆瓶颈：如果经验不能复用，智能体每次都像第一次做任务。
信用分配瓶颈：长期目标太远时，奖励函数很难准确告诉模型哪一步做对了。

技能库其实是一种外部记忆

Voyager 最值得借鉴的不只是 GPT-4 写代码，而是它把成功代码沉淀成可检索技能。这和现代 agent 的 tool library、memory store、本地代码库非常相似。本质上，系统正在把“一次成功轨迹”转化为“下次可直接调用的策略原语”。

本章小结

具身智能体要想持续进步，必须把环境反馈、外部记忆和奖励设计整合成稳定闭环。

走向真实机器人系统的工程约束

仿真成功并不等于现实可用

从 Minecraft 到 Isaac Gym，再到真实机器人，最大的鸿沟往往不是任务描述，而是执行代价。现实机器人存在硬件磨损、视觉遮挡、传感器噪声和安全边界，一次错误动作的成本远高于仿真环境里的“重来一次”。

不要把仿真中的快速迭代误当作现实世界可复制

LLM 可以在仿真里高速写代码、改奖励、跑搜索，但真实机器人系统通常需要速率限制、碰撞检测、人工确认和回滚策略。否则，一个看似聪明的策略很快会演变成硬件风险。

未来系统更像分层控制栈

一个现实可落地的 embodied agent 更可能由多层系统组成：高层 LLM 负责目标分解和策略选择，中层 planner 负责任务约束与状态估计，底层 controller 处理毫秒级闭环控制。课程中介绍的这些研究，实际上分别强化了这条栈中的不同层。

本章小结

具身智能真正走向现实之前，必须接受控制系统、安全约束和运维成本带来的工程边界。

总结与延伸

本讲展示了从虚拟世界（Minecraft）到物理世界（真实机器人）的通用智能体构建路径。核心哲学是：“如果人类能做到，AI 为什么不能？”——关键在于主动交互、终身学习和跨域迁移。

拓展阅读

Fan et al., “MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge”, NeurIPS 2022
Wang et al., “Voyager: An Open-Ended Embodied Agent with Large Language Models”, 2023
Ma et al., “Eureka: Human-Level Reward Design via Coding Large Language Models”, 2023
Jiang et al., “VIMA: General Robot Manipulation with Multimodal Prompts”, 2023