跳转至

Special Eiqfomoucjs

LaTeX 源码 · 备用 PDF · 观看视频

\begingroup

\setlength{\parskip}{0pt} \renewcommand{\baselinestretch}{0.92}\selectfont

\endgroup

导读:为什么机器人需要基座模型

本节先建立整期的问题。陈建宇的核心判断是,过去机器人常常是“100 个场景、100 个任务、100 套专用模型”,这种方式很难 scale。大语言模型和多模态模型的成功,让机器人领域看到另一条路:能不能为机器人训练一个更通用的 foundation model,让它跨任务、跨本体、跨场景泛化。

本期核心命题

VLA,即 Vision-Language-Action Model,不只是给机器人接一个语言模型,而是让视觉、语言和动作进入同一个可扩展的端到端系统。真正的机器人基座模型,要从“利用现有基础模型做机器人”走向“为机器人预训练基础模型”。

How robotic learning works now? 传统机器人学习通常围绕任务、数据、模型和执行闭环展开。投屏帧,约 00:11:33。

读图:从专用模型到通用模型的压力

图中展示的不是单篇论文,而是整期课的背景:机器人学习长期依赖特定任务、特定数据和特定部署。陈建宇强调,这种方式面对家庭、工厂和人形机器人时不够通用,因而需要基座模型路线。

机器人 AI 的两阶段

本节把路线分清楚。第一阶段是 leveraging foundation models in robotics,即把 LLM、VLM、Code LM 等现有基础模型拿来替代机器人系统中的某个模块。第二阶段是 pretraining foundation models for robotics,即直接为机器人训练能够输出动作的模型。前者是拼装和借力,后者才是真正的机器人基座模型。

Foundation models for robotics:从 LLM、VLA 到 Actuation 的模块关系。投屏帧,约 00:21:37。

读图:机器人三板块与基础模型替代

图中把 Perception、Actuation 和 LLM 放在一起。传统机器人通常拆成规划、感知和执行;大模型浪潮先替代 Planning,再替代 Perception,最后才试图让 Action 也进入统一模型。

术语消化:VLA、VLM、LLM

术语 含义 本课中的作用
LLM Large Language Model,大语言模型 先替代或增强机器人规划。
VLM Vision-Language Model,视觉语言模型 用于感知、场景理解和视觉反馈。
VLA Vision-Language-Action Model,视觉语言动作模型 直接把视觉、语言和动作连接到端到端控制。
Robot Foundation Model 机器人基座模型 目标是跨任务、跨本体和跨场景泛化。

本章小结

VLA 的出现,是机器人从模块拼装走向通用基座模型的关键线索。整期课的主线,是从 LLM/VLM 借力,到 RT-2/OpenVLA/HiRT/pi0/GR00T N1,再到 diffusion policy、RDT 和未来统一理解预测模型。

第一阶段:利用现有基础模型改造机器人三板块

上一章提出两阶段路线,本章看第一阶段:把现有 LLM、VLM 和 Code LM 放进机器人系统。传统机器人三板块是 Planning、Perception、Actuation。大模型首先替代规划,因为语言模型擅长把任务拆成步骤;随后 VLM 替代感知,因为它能把视觉场景和语言任务连接起来;再进一步,Code LM 试图把执行也自动化。

SayCan:我能做,而不是我说做

SayCan 的核心问题是:语言模型会提出很多动作,但机器人未必能在当前环境中做到。它将语言模型的任务分解和机器人 affordance 结合起来,既考虑“语言上应该做什么”,也考虑“机器人实际上能不能做”。这是把 LLM 接到机器人规划上的开创性工作。

SayCan:Query LLM to rank action primitives,再用 affordance function 判断可行性。投屏帧,约 00:25:37。

读图:LLM 给目标,affordance 给约束

图中左侧是语言模型对动作的排序,右侧是机器人在现实环境中的可供性判断。读这张图时要注意,SayCan 没有让语言模型直接控制机器人,而是在语言计划和物理可行性之间加了一道约束。

语言计划不能直接等于机器人动作

机器人需要考虑抓取能力、空间位置、物体状态和执行失败。LLM 如果只输出“拿起杯子”,并不知道杯子是否可达、夹爪是否合适、环境是否允许。SayCan 的价值就是把语言意图落地到 affordance。

Inner Monologue、DoReMi 与 VoxPoser

本节看三篇继续把基础模型用于机器人推理的工作。Inner Monologue 强调机器人执行过程中需要语言化的反馈和内心独白,把环境反馈重新纳入规划。DoReMi 关注计划和执行不一致时如何检测并恢复。VoxPoser 则用语言模型构造 3D value maps,把语言目标转成可组合的空间价值场,用于 manipulation。

Inner Monologue:通过语言模型规划和环境反馈形成具身推理循环。投屏帧,约 00:27:29。

读图:机器人需要执行后的自我叙述

Inner Monologue 的图把 Action、Environmental Feedback、Corrective Action 连成闭环。它不是简单让机器人“会说话”,而是让执行结果回到语言规划过程,形成可修正的中间状态。

DoReMi:检测并恢复 plan-execution misalignment。投屏帧,约 00:28:57。

读图:错配检测是具身智能的现实问题

DoReMi 处理的是规划与执行错配:计划里说 A,执行中环境变成 B,或者机器人没有按预期完成。它提醒我们,机器人系统不是一次生成计划就结束,而是要持续检测、纠错和恢复。

VoxPoser:用语言模型组合 3D value maps 以指导机器人操作。投屏帧,约 00:32:36。

读图:从语言目标到 3D 操作场

VoxPoser 图中把语言指令转成空间中的 value map。读图时要看“可组合”二字:不同约束可以叠加成一个操作目标,例如接近物体、避开障碍、保持姿态等。

从 Code LM 到真正的机器人模型

Code LM 替代 Actuation 的想法,是让模型写机器人代码或调用底层 API。但陈建宇指出,这仍然不是完整的机器人 foundation model。它更多是在现有工具和现有控制器上做编排;真正的 VLA 需要模型本身具备从视觉和语言直接输出动作的能力,而不是只会写调用代码。

第一阶段的边界

Leveraging foundation models 能快速增强规划、感知和工具调用,但它本质上仍是模块化系统。通用机器人最终需要在机器人数据上训练能够处理 action 的模型。

本章小结

第一阶段的贡献,是证明 LLM/VLM 能帮助机器人理解任务、计划行动、检测错配和构造空间目标。但这些方法仍依赖传统机器人模块,尚未真正形成端到端 VLA。

第二阶段:VLA 与机器人基座模型

上一章讲现有基础模型如何进入机器人,本章进入第二阶段:直接为机器人预训练 foundation model。VLA 的目标是把视觉、语言和动作放进一个模型中,让模型从观察和指令直接产生机器人动作。陈建宇用“人就是很智能的 VLA Agent”来解释:人看到世界、理解语言、输出动作,本身就是通用 VLA。

VLA Model:将视觉和语言输入映射到 action 输出。投屏帧,约 00:39:18。

读图:VLA 的 A 是真正难点

图中从 vision 和 language 到 action,展示的是 VLA 的最小形态。V 和 L 可以借用 VLM/LLM 的进展,但 A 需要处理频率、连续控制、轨迹、稳定性和本体差异。

ALOHA 与 Mobile ALOHA:低成本硬件和示范数据

本节从 VLA 概念回到数据和硬件底座。原因是,机器人基座模型不是只靠论文里的大模型结构就能出现,它首先需要便宜、可复制、能稳定采集示范的系统。ALOHA 在这里承担的是“把真实双手操作数据做出来”的角色,为后续讨论 action chunk、模仿学习和跨任务泛化提供具体参照。

ALOHA 系列不是严格意义上的现代 VLA,但它对机器人学习很重要:低成本双臂硬件、teleoperation 示范、Action Chunking Transformer,以及让机器人模仿细粒度双手操作。Mobile ALOHA 加上移动底盘,把双臂操作扩展到更复杂的移动场景,并以大量演示视频出圈。

ALOHA:Action Chunking Transformer 用于双手操作动作序列预测。投屏帧,约 00:44:18。

读图:Action Chunking 是动作序列预测

图中展示 ACT 的结构:输入观测,输出未来一段动作序列。关键是 chunking:模型不是只预测下一步动作,而是预测一段动作轨迹,再滚动执行。这和模型预测控制有相似直觉。

Mobile ALOHA:将低成本双臂操作扩展到移动全身遥操作。投屏帧,约 00:49:03。

ALOHA 的局限

ALOHA 很强,但更像高质量模仿学习系统。它仍然偏任务和数据驱动,不等于能跨大量机器人和任务泛化的 VLA 基座模型。

Gato、RT-1 与 Octo

接下来这一组工作把问题从“能否收集高质量示范”推进到“能否训练一个更通用的策略”。从 Gato 到 RT-1,再到 Octo,核心变化是通用代理的想法逐步落到真实机器人数据和开源 policy 框架上。老师强调,这些工作不一定都是今天意义上的 VLA,但它们共同铺出了统一建模、多任务训练和机器人控制规模化的路径。

Gato 是“一个模型处理多种任务”的早期通用代理尝试,思想非常早,但当时模型、数据和算力还不够成熟。RT-1 则更直接面向机器人控制,在真实世界控制数据上训练 Robotics Transformer。Octo 是开源通用机器人策略,强调把不同任务和数据放进一个可复用的 policy 框架。

Gato:A Generalist Agent,把多种任务 token 化后统一建模。投屏帧,约 00:51:37。

读图:Gato 早在思想上接近 VLA

Gato 图中显示多任务、多模态输入统一进一个模型。它的历史价值是提出 generalist agent 的方向,但还没有今天 VLM/VLA 的模型规模、数据和机器人执行能力。

RT-1:Robotics Transformer for real-world control at scale。投屏帧,约 00:56:12。

读图:RT-1 是机器人数据规模化的重要节点

RT-1 把任务说明、图像观测和动作 token 放进 Transformer。它的贡献不只是模型结构,还在于真实机器人控制数据和可扩展训练流程。

Octo:开源通用机器人策略,支持 task 和 observation token 化。投屏帧,约 01:00:50。

跨本体学习:CrossFormer 与 GR 系列

通用机器人模型不能只会一种机械臂或一种任务。CrossFormer 关注 cross-embodied learning,希望一个 policy 覆盖 manipulation、navigation、locomotion 和 aviation 等不同本体。字节 AI Lab 的 GR-1/GR-2 则把视频生成预训练、video-language-action 和 web-scale knowledge 引入机器人操作,强调从大规模视频和知识中学习。

CrossFormer:Scaling cross-embodied learning,一种 policy 面向多类本体。投屏帧,约 01:04:52。

读图:跨本体是 VLA 泛化的关键

CrossFormer 图示强调不同机器人本体之间的共享策略。真正通用的机器人基座模型不能只服务单一硬件,否则仍然会退回“一个机器人一个模型”。

GR-1:基于视频生成预训练的视觉机器人操作工作。投屏帧,约 01:11:24。

本章小结

第二阶段开始把机器人数据、动作输出和跨本体泛化放到核心位置。ALOHA 提供低成本示范和动作序列学习,RT-1/Octo/RT-X/OpenVLA 等工作把 VLA 推向更通用的机器人策略。

RT-2、RT-X、OpenVLA 与 Action Head

前面已经说明,机器人基座模型需要真实机器人数据和跨任务策略;本章进一步进入最接近当前 VLA 主线的论文群。这里的问题变成:既然 VLM 已经从互联网图文中学到大量视觉语言知识,机器人能否把这部分知识迁移到动作输出,而不是从少量机器人数据重新学习世界常识?

本章进入当前 VLA 主线。RT-2 被视为 VLA 的开山工作之一,它把 web-scale 的视觉语言知识迁移到机器人控制中。关键思想是:一个预训练好的 VLM 已经掌握大量视觉和语言知识,能否通过机器人动作数据,让它直接输出 action?这把互联网知识和机器人控制连接起来。

RT-2:Vision-Language-Action Models transfer web knowledge to robotic control。投屏帧,约 01:23:21。

读图:RT-2 用 VLM backbone 输出机器人动作

图中可以看到 RT-2 把 VLM 和机器人 action 连接起来。核心是迁移:模型不是只在机器人数据上从零学,而是把互联网视觉语言知识迁移到机器人控制。

RT-X 与 Open X-Embodiment

本节把焦点从单个模型结构移到数据基础设施。RT-2 证明了 VLM 迁移到机器人控制有价值,但如果训练数据只来自少数机器人和少数任务,模型仍然容易被本体、场景和动作空间锁死。因此 RT-X/Open X-Embodiment 的核心问题,是怎样把分散在不同实验室、不同机器人上的经验汇成可训练的通用数据。

RT-X 和 Open X-Embodiment 强调数据集和跨本体模型。机器人数据稀缺且碎片化,单一实验室很难覆盖足够多任务和机器人本体。Open X-Embodiment 通过汇集多机器人、多任务数据,尝试训练跨本体模型,显示通用策略优于单任务专用策略的可能性。

RT-X / Open X-Embodiment:多机器人数据集和 RT-X 模型。投屏帧,约 01:28:56。

读图:数据集本身就是基础设施

图中拼接了大量机器人和任务场景。读这张图要注意,VLA 的瓶颈不只是模型结构,还包括跨实验室、跨硬件、跨任务的数据标准化。

OpenVLA 与 HiRT:开源和层级动作处理

OpenVLA 近似开源版 RT-2,把 VLM 接上动作输出,并开源模型与训练流程。HiRT 则指出,直接用 VLM 输出 action 存在动作频率和精细控制问题,因此加入专门处理 Action 的 policy/head:VLM 低频理解和规划,Action Policy 高频执行控制。

OpenVLA:开源 VLA 模型,将 VLM 与机器人动作输出连接。投屏帧,约 01:32:11。

HiRT:通过层级 Robot Transformers 增强机器人控制。投屏帧,约 01:36:05。

读图:Action Head 是 VLA 工程化的重要补丁

HiRT 图中把高层 VLM 信息传给 Action Policy。它对应一个工程事实:大 VLM 推理慢,机器人控制频率高,动作输出需要专门模块来处理连续控制和局部视觉反馈。

Figure Helix、pi0 与 GR00T N1

接下来这一段进入企业界和更接近产品化的系统。前面的 OpenVLA 与 HiRT 已经暴露出一个核心张力:VLM 擅长低频理解和语义规划,但真实机器人需要高频、连续、稳定的 action。Figure Helix、pi0 和 GR00T N1 的共同点,是把“理解模块”和“动作模块”更明确地拆开,再用系统设计把两者重新接起来。

Figure Helix 虽未发论文,但代表企业界最新架构:上层系统二像预训练 VLM,下层系统一像实时动作控制。pi0 把 flow model 引入 VLA,用 Action Expert 做通用机器人控制。NVIDIA GR00T N1 则强调人形机器人开放基础模型,也采用 VLM 加 action 处理的结构。

Figure AI Helix:系统二与系统一架构示意。投屏帧,约 01:39:06。

pi0:Vision-Language-Action Flow Model for General Robot Control。投屏帧,约 01:40:38。

NVIDIA GR00T N1:通用人形机器人的开放基础模型。投屏帧,约 01:42:06。

本章小结

RT-2 把 VLM 知识迁移到机器人控制,RT-X/Open X-Embodiment 强调数据规模和跨本体,OpenVLA 提供开源路线,HiRT/pi0/GR00T N1 则开始更认真地处理 Action 模块。这说明 VLA 的核心难点正在从“接上语言和视觉”转向“动作如何高频、稳定、可泛化地输出”。

Diffusion Policy、RDT 与世界模型方向

前面几章主要围绕 Transformer/VLM/VLA,本章看 action 生成路线。Diffusion Policy 把扩散模型用于视觉运动策略学习:不是生成图像,而是生成动作轨迹。它对机器人很自然,因为动作序列本身也可以看成需要逐步去噪和生成的对象。

Diffusion Policy:通过动作扩散学习 visuomotor policy。投屏帧,约 01:45:20。

读图:扩散模型也可以生成 action

图中展示了 Diffusion Policy 的训练与推理过程。关键迁移是:扩散模型不只用于图像生成,也可以用于 action trajectory 生成,尤其适合连续动作和多峰轨迹。

RDT-1B:扩散基础模型用于双手操作

本节继续追问 action 本身应该如何建模。前面 VLM+Action Head 的路线把动作模块作为高频控制器,但仍需要一个更适合连续轨迹、多峰选择和双手协同的生成机制。RDT-1B 的意义在于把 Diffusion Policy 的直觉放大到基础模型尺度,让“动作生成”不再只是一个小策略网络的附属环节。

RDT-1B 将 Diffusion Policy 扩展到更大的双手操作基础模型。它试图处理 unified action space、不同 action head 和双臂 manipulation。它的意义在于,把小模型式动作扩散推进到更大规模、更接近 foundation model 的方向。

RDT-1B:双手操作机器人的扩散基础模型。投屏帧,约 01:49:31。

Prediction with Action 与 VPP

Prediction with Action 把视觉预测和动作预测放进联合去噪过程,试图把世界模型和 VLA 连接起来。续作 VPP 强调用 predictive visual representations 形成 generalist robot policy。这里的核心不是只输出 action,而是同时理解未来视觉变化和动作后果。

Prediction with Action / VPP:通过联合去噪进行视觉策略学习。投屏帧,约 01:57:41。

读图:世界模型进入 VLA

图中包含视频预测、动作和去噪过程。读这张图时要抓住一点:机器人不只需要知道下一步动作,还需要预测动作会如何改变视觉世界,这就是世界模型方向。

未来方向:UP-VLA 与在线强化学习

本节从已有系统转向下一阶段问题。当前 VLA 已经能连接视觉、语言和动作,但还没有稳定解决“理解世界”和“预测动作后果”之间的统一,也没有解决真实环境中持续改进的闭环。因此陈建宇把未来方向压缩为两条线:更统一的模型结构,以及更安全可控的在线学习。

最后,陈建宇列出两个未来方向。UP-VLA 试图统一 understanding 和 prediction,把理解与预测合到 embodied agent 的一个模型中。另一个方向是 online reinforcement learning,用在线反馈继续改进 VLA。难点在于,如果直接对整个 VLM/VLA 做 RL,训练可能不稳定;一种策略是先冻结 VLM,只训练 action head,再逐步放开。

iRe-VLA / Online RL:通过在线强化学习改进 Vision-Language-Action Model。投屏帧,约 02:06:32。

未来两条线

第一条线是统一理解、预测和动作,让模型不仅看懂世界,还能预测动作后果;第二条线是在线强化学习,让机器人在真实或仿真环境反馈中持续改进。

本章小结

Diffusion Policy 和 RDT 把动作生成建模推向更强的连续控制;Prediction with Action/VPP 把世界模型引入 VLA;UP-VLA 和在线 RL 则指向未来的统一模型和持续学习。

总结与延伸

本节把整期压缩成六个结论。第一,机器人革命的关键是从专用模型走向通用模型。第二,早期路线是用 LLM/VLM/Code LM 改造 Planning、Perception、Actuation。第三,真正的 VLA 要把 Vision、Language、Action 放进端到端模型。第四,RT-2/OpenVLA 等路线借助 VLM 迁移互联网知识,但 action 高频控制仍需要专门处理。第五,Diffusion Policy/RDT 说明动作本身可以用生成模型建模。第六,未来方向是世界模型、统一理解预测和在线强化学习。

把 VLA 投屏课放进张小珺 AI/互联网队列

这期是 EP106、EP109、EP121 等具身智能访谈的技术底座。它不是创业故事,而是机器人基座模型路线图,解释了为什么 VLA 会成为 2025 年机器人讨论里的关键词。

经典论文速查表

论文/系统 关键贡献 本课位置
SayCan LLM 规划 + affordance 可行性 用语言模型替代 Planning 的代表。
Inner Monologue 环境反馈和语言化自我修正 让执行反馈回到规划。
DoReMi 检测和恢复计划执行错配 处理真实机器人执行失败。
VoxPoser 3D value maps 把语言目标转成空间操作场。
ALOHA 低成本双臂操作和 ACT 示范数据和动作序列学习。
RT-1/RT-2 机器人 Transformer / VLA 迁移 Google Robotics 主线。
RT-X/OpenVLA 跨本体数据和开源 VLA 数据与开源基础设施。
HiRT/pi0/GR00T N1 VLM + Action Head/Expert 更认真处理 action。
Diffusion Policy/RDT 动作扩散和双手操作基础模型 生成式 action policy。
UP-VLA/iRe-VLA 统一理解预测和在线 RL 未来方向。

后续观察问题

最后回到张小珺这组 AI/互联网访谈的长期观察框架:VLA 不是一个单点模型名,而是一组围绕数据、模型、硬件、商业落地和安全训练的系统问题。下面这些问题适合作为后续追踪清单,用来判断机器人基座模型是否真的进入类似大语言模型的 scale 阶段。

  1. VLA 的 scaling law 是否会像语言模型一样稳定出现?
  2. 跨本体数据集能否足够大、足够标准化,支撑真正通用策略?
  3. VLM backbone 直接输出 action,和 VLM + Action Head,哪条路线更可扩展?
  4. 世界模型是否会成为机器人泛化的关键,还是 action policy 本身就足够?
  5. 在线强化学习能否在真实机器人上安全、高效、可持续地运行?
  6. 人形机器人是否会先靠本体和遥操作落地,还是必须等待 VLA 能力成熟?

拓展阅读

  • 对具身智能学术史感兴趣,可对照 EP106 王鹤访谈。
  • 对仿真和合成数据感兴趣,可对照 EP109 谢晨/光轮访谈。
  • 对多模态世界模型和视觉推理感兴趣,可对照 EP102 张祥雨访谈。
  • 对机器人产业化和硬件入口感兴趣,可对照 EP104 Rokid 与 EP121 谭捷访谈。