跳转至

Ep134 Owjtot14Bg0

LaTeX 源码 · 备用 PDF · 观看视频

导读:数据为什么重新成为产业主线

人工智能常被说成由数据、算力、算法三驾马车驱动。过去几年,算力和模型架构更容易被看见;但当大语言模型接近数据墙、机器人又面临数据荒漠时,数据重新成为决定产业格局的关键变量。谢晨这期访谈的价值在于,它不是讲单一数据集,而是把数据产业拆成来源、闭环、金字塔、定价、Recipe 和版图。

本期核心命题

数据不是静态原料,而是持续闭环。谁能更低成本地获得真实失败、仿真场景、可验证反馈和可复用配方,谁就能更快训练出可落地的智能系统。

视觉策略说明

本视频是固定访谈画面,没有教学 slides、白板或产品演示。按本仓库播客标准,正文不重复插入人物帧;封面用于来源识别,正文用数据金字塔、闭环和产业图谱承载教学内容。

本章小结

本期是数据产业综述:LLM 的问题是高质量数据边际收益下降,机器人的问题是物理世界数据稀缺且昂贵。两者都需要数据闭环和评测体系。

数据金字塔:真实、仿真与互联网数据

机器人数据和 LLM 数据最大的不同,是物理接地。LLM 可以从互联网获得海量文本、代码和多模态材料;机器人需要动作、状态、环境和反馈,真实采集昂贵且慢。因此谢晨强调,机器人数据更像金字塔:顶层是真实端侧数据,中层是仿真/合成数据,底层是互联网和人类数据。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{data-pyramid.png}
\caption{机器人数据金字塔:真实数据、仿真数据与互联网/人类数据。}
\end{figure}

读图:三层数据各自解决什么

顶层真实数据最贴近部署,但数量少、成本高;中层仿真数据可控、可规模化,适合生成长尾场景;底层互联网/人类数据最大规模、最低成本,但物理接地弱。机器人数据策略必须混合三层。

为什么机器人数据是荒漠

机器人不像自动驾驶,有上百万辆车每天回传真实道路数据。通用机器人尚未大规模部署,遥操作成本高,任务场景分散,本体差异大。没有端侧规模,就没有像特斯拉那样自然形成的数据引擎。因此机器人需要仿真和合成数据作为前提条件,而不只是锦上添花。

仿真不是玩具,也不是万能药

仿真能规模化生成场景和评测,但有 sim-to-real gap。真实数据少、仿真不准、互联网数据弱接地,这三者必须组合,而不是互相替代。

本章小结

机器人数据的核心矛盾是:最真实的数据最少,最多的数据最不真实。数据金字塔是解决这个矛盾的基本框架。

数据引擎:从失败到成功的数据闭环

谢晨说,最有效的数据是“先失败再成功”的数据。这句话很重要。成功轨迹告诉模型该怎么做,失败再修正的轨迹告诉模型为什么错、如何恢复、怎样从错误中学习。自动驾驶和机器人都需要这样的闭环:部署、采集、挖掘、训练、评测、再部署。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{data-engine-loop.png}
\caption{数据闭环 / Data Engine:部署、采集、挖掘、训练、评测、仿真。}
\end{figure}

读图:Data Engine 的关键是持续性

图中每一轮部署都会带回真实反馈,失败案例被挖掘成数据,训练后再通过仿真评测验证,最后重新部署。它支持的结论是:数据不是一次性购买,而是系统持续运行的结果。

特斯拉数据引擎的启示

特斯拉的数据引擎来自大量端侧车辆。车在真实世界运行,产生长尾场景和驾驶反馈,再回到云端训练,更新端侧能力。这个逻辑在机器人上不完全成立,因为机器人端侧规模不足。于是,机器人产业必须寻找新的数据引擎:仿真、合成、遥操作、失败案例挖掘、benchmark 和真实小规模部署结合。

数据引擎的本质

数据引擎不是“有很多数据”,而是有一个能持续发现错误、生成补充数据、验证改进并重新部署的循环。

本章小结

高质量数据来自闭环。机器人和 LLM 都需要反馈,但机器人的反馈更昂贵、更依赖环境和评测。

数据类型版图:LLM、世界模型、VLA 与机器人

访谈中多次提到大语言模型、世界模型、VLA、机器人大脑和物理世界 AI。这些概念容易混在一起。可以把它们放到数据类型版图中理解:文本/代码数据适合 LLM,多模态数据提供感知,机器人轨迹提供动作,仿真数据提供可控场景,失败-成功对提供高信息密度反馈。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{data-taxonomy.png}
\caption{数据类型版图:文本、代码、多模态、机器人轨迹、仿真、失败-成功对。}
\end{figure}

读图:不同模型需要不同数据

LLM 依赖文本和代码;世界模型需要物理预测相关数据;VLA 需要视觉、语言和动作;机器人策略需要端侧轨迹和反馈。数据荒不是绝对没有数据,而是缺少和目标能力匹配的数据。

术语消化:模型与数据

术语 解决的问题 数据需求
LLM 语言理解、推理、代码和数字世界任务 文本、代码、多模态语料、反馈数据。
World Model 预测物理世界状态和未来变化 视频、仿真、物理交互、3D/空间数据。
VLA Vision-Language-Action,连接感知、语言和动作 视觉、语言指令、动作轨迹、环境反馈。
Physical AI 能在物理世界行动的 AI 系统 本体数据、仿真、真实部署、评测。
Behavior Benchmark 面向具身任务的长程评测集 仿真环境、任务定义、成功判定。

共生关系

大模型团队、世界模型团队和 VLA 团队并不是孤立的。VLA 可能使用基础 LLM,世界模型可以作为云端大脑,VLA 可以把行动反馈给世界模型。若评测体系逐渐一致,世界模型和 VLA 的边界也可能变得更接近。

不要把世界模型和 VLA 混为一谈

世界模型更关注理解和预测物理世界;VLA 更关注在物理世界采取行动。二者会共生,但目标不同、数据不同、评估方式也不同。

本章小结

数据版图决定模型版图。LLM、世界模型、VLA 和机器人策略需要不同类型的数据,也通过评测和反馈逐渐连接。

数据定价:数据不是按 GB 卖

数据被称为新时代的石油,但这个比喻容易误导。石油按物理量卖,数据的价值却取决于真实性、稀缺性、可验证性、可复用性和边际收益。同样 1GB 数据,可能是重复网页,也可能是关键长尾失败案例;价值完全不同。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{data-pricing.png}
\caption{数据定价的五个维度:真实性、稀缺性、可验证性、可复用性、边际收益。}
\end{figure}

读图:数据价格来自边际贡献

图中五个因素共同决定数据价值。越真实、越稀缺、越可验证、越能迁移,数据越值钱;但同类数据越多,边际收益越低。数据产业的核心不是堆量,而是找到高边际收益数据。

失败数据为什么贵

失败数据贵,因为它告诉模型边界在哪里。成功轨迹可能很多都相似,失败轨迹往往暴露系统缺陷、长尾场景和恢复策略。对自动驾驶、机器人和 Agent 来说,失败-修复对比单纯成功演示更有训练价值。

最有效的数据:失败再成功

先失败再成功的数据包含错误、诊断、修正和结果。它比单纯成功数据更接近学习过程,也更适合训练恢复能力。

本章小结

数据定价应按能力提升的边际贡献,而不是按体积。高价值数据通常真实、稀缺、可验证,并能暴露模型边界。

Data Recipe:数据配方才是壁垒

同样的数据源,不同的清洗、过滤、配比、训练顺序和反馈方式,会得到不同模型能力。Recipe 是数据产业中最隐性的壁垒。它不是“买来一堆数据”,而是决定哪些数据进训练、以什么比例进、何时进、如何评估。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{data-recipe.png}
\caption{Data Recipe:来源、过滤、配比、课程、评估反馈。}
\end{figure}

读图:Recipe 为什么比原料更难复制

图中中心是 Data Recipe,周围是来源、过滤、配比、课程和评估。原料可以购买,配方来自实验、失败、评估和领域知识。Recipe 决定数据是否真正转化成能力。

术语消化:Recipe 相关概念

术语 解决的问题 本期中的含义
Filtering 去掉低质、重复、有害或无关数据 决定训练信号纯度。
Mixture 不同来源数据的比例 决定能力分布和偏好。
Curriculum 数据进入训练的顺序 决定模型先学什么、后学什么。
Eval Feedback 用评测反推数据改动 让 recipe 可迭代。
Synthetic Data 由模型或仿真生成的数据 解决真实数据稀缺,但需控制分布偏差。

本章小结

Data Recipe 是从数据到能力的转换器。数据产业真正难复制的部分,常常不是数据源本身,而是配方和反馈闭环。

产业版图:谁在争夺机器人和物理 AI 的数据闭环

访谈中提到几股势力:大模型团队、世界模型团队、VLA 团队、本体公司、仿真/合成数据公司。它们不是简单上下游,而是共生关系。谁掌握数据闭环,谁就更可能掌握机器人大脑。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.95\textwidth]{data-industry-landscape.png}
\caption{数据产业版图:大模型、世界模型、VLA、本体与仿真数据公司。}
\end{figure}

读图:为什么这是共生网络

大模型团队提供基座和基础设施;世界模型团队理解物理预测;VLA 团队连接动作;本体公司拥有真实机器人;仿真公司提供规模化场景。没有任何一方能单独完成全部数据闭环。

本体公司 vs 大脑公司

自动驾驶里,拥有车队的公司天然拥有端侧数据;机器人里,大规模端侧部署尚未出现,因此本体公司未必自动拥有数据优势。大脑公司如果掌握仿真和基础设施,也可能先形成能力;本体公司若能形成真实数据闭环,也会非常关键。

自动驾驶经验不能直接平移到机器人

自动驾驶有相对标准化的道路环境和大规模车队;机器人本体、任务和场景更分散。数据引擎需要重新设计,不能照搬 FSD 路线。

本章小结

机器人数据产业会是共生网络。模型、世界模型、VLA、本体和仿真数据公司都可能成为关键节点,关键看谁能形成闭环。

终点:数据会不会不重要

访谈最后问:数据问题会不会有一天彻底不重要?谢晨的回答是,他越来越认为智能越强,对知识和数据越饥渴。人越优秀越想学习,AI 也可能如此。终局可能不是“数据消失”,而是从向外部数据学习,转向在仿真和自我环境中持续学习。

评测是卡口

对机器人来说,谢晨认为最关键的问题可能是评测规模化。没有规模化评测,就不知道模型是否真的变聪明。对大语言模型和 Agent 来说,也需要更高阶的评价指标,因为模型越强,旧 benchmark 越容易失效。

评测也是数据问题

评测集不是外部裁判,而是训练和研究的反馈源。没有好的评测,数据闭环就无法判断方向。

自我学习与仿真终局

如果 AI 能在仿真环境中设定目标、尝试、失败、修正、再尝试,数据工厂不会消失,而是形态变化:从采集人类数据,转向构造环境、目标和反馈,让 AI 在其中持续学习。

从 data factory 到 environment factory

当外部数据边际收益下降,真正重要的可能是构造可学习环境。仿真、评测、reward 和失败反馈会成为新的数据工厂。

本章小结

数据不会消失,它会从静态语料转向动态环境。越强的智能,越需要更高质量的反馈和更复杂的学习环境。

LLM 数据墙与机器人数据荒漠的差异

同样说“缺数据”,LLM 和机器人缺的不是同一种东西。LLM 的问题更像高质量公开语料边际收益下降:网页、书籍、代码、论文和问答数据已经被大规模使用,继续扩展会遇到重复、污染、版权、质量和评估瓶颈。机器人则更像从一开始就缺真实交互数据:没有足够多机器人在真实环境中执行任务,就没有稳定的端侧数据流。

两类数据短缺

对象 数据短缺类型 典型解决路径
LLM 高质量语料边际收益下降,benchmark 变难 更好过滤、更好合成数据、更高阶反馈、agent 环境。
机器人 真实动作轨迹少、长尾场景少、采集昂贵 仿真、遥操作、小规模真实部署、失败数据挖掘。
世界模型 物理预测数据和空间动态不足 视频、3D、仿真、多模态预测任务。
VLA 指令、视觉、动作、反馈难统一 端侧轨迹、仿真任务、语言标注、action head。

“数据墙”不是一个统一概念

LLM 的数据墙是边际收益和质量问题;机器人的数据荒漠是物理交互和部署规模问题。混用这两个概念,会导致错误的数据策略。

本章小结

LLM 和机器人都缺数据,但缺法不同。前者需要更高质量、更高阶反馈;后者需要可规模化的物理交互和仿真闭环。

机器人数据采集方式:真实、遥操作、仿真、合成

机器人数据采集有多种路径,每一种都有成本和偏差。真实部署最贴近产品,但规模不足;遥操作能得到动作示范,但人力成本高;仿真能规模化长尾场景,但有 sim-to-real gap;互联网视频规模大,但缺少动作和反馈。高标准数据系统必须组合这些来源。

采集方式对比

方式 优点 代价
真实部署 最贴近真实任务和硬件 规模小、风险高、长尾少。
遥操作 动作示范清晰,可控性强 人力昂贵,操作者分布有限。
仿真 可规模生成、可覆盖危险/稀有场景 真实差距、物理建模成本。
合成数据 可快速补齐任务和语言标注 分布偏差和幻觉风险。
互联网视频 规模巨大,覆盖广泛场景 缺动作、缺状态、缺 reward。

为什么失败数据最值钱

失败轨迹包含边界条件和恢复信息。对机器人来说,成功示范告诉模型“怎么做”,失败后修正告诉模型“哪里会错”和“如何恢复”。这类数据比重复成功演示更有边际价值。

本章小结

机器人数据采集不是单一路径,而是多来源组合。真实部署、遥操作、仿真、合成和互联网视频各自解决不同问题。

仿真数据质量:sim-to-real gap 怎么处理

仿真是机器人数据金字塔中最关键的中间层。它能规模化生成场景、控制变量、复现失败、构造评测。但仿真数据只有在与真实世界差距可控时才有价值。否则模型会学会仿真里的捷径,而不是现实中的能力。

仿真质量的四个维度

维度 要求 失败表现
物理一致性 接触、摩擦、重力、动力学可信 现实中动作失效。
视觉真实度 材质、光照、遮挡、相机噪声合理 感知模型过拟合仿真画面。
任务多样性 覆盖长尾、异常和复杂组合 只会标准场景。
评测可迁移 仿真评测能预测真实表现 仿真榜单和真实部署脱节。

仿真不是越真实越好

过度追求视觉真实可能成本高但收益低。仿真要服务训练和评测目标:哪些变量影响策略,哪些变量只影响外观,必须分清。

本章小结

仿真数据的质量,不在于“看起来像不像”,而在于它是否能提升真实任务表现,并帮助评测真实能力。

评测是终点,也是起点

访谈最后强调,机器人和大模型都面临评测卡口。没有好评测,就无法知道模型是否真的变聪明;没有可规模化评测,就无法形成数据闭环。评测不是训练结束后的报告,而是决定下一轮数据采集和训练方向的起点。

评测的三种角色

角色 功能 例子
裁判 判断当前模型是否更强 benchmark、端到端成功率、真实任务通过率。
数据挖掘器 暴露失败和长尾场景 失败 case 自动回流训练集。
方向盘 决定下一步训练和采集方向 哪类任务短板最大,就补哪类数据。

评测也是数据资产

高质量评测定义了“什么叫进步”。当模型越来越强,评测本身会成为稀缺数据,因为它需要更懂任务、更懂失败、更懂未来需求的人来设计。

本章小结

数据闭环必须以评测为中心。没有评测,就没有方向;没有方向,数据只会堆积而不会变成能力。

数据供应链:从数据源到能力的工业流程

如果把数据看成产业,就需要一条供应链:采集、授权、清洗、标注、合成、混合、训练、评估、反馈。每一环都会影响最终模型能力。数据供应链越长,越需要标准化、审计和质量控制。

数据供应链表

环节 任务 质量风险
采集 从网页、机器人、仿真、用户行为获取数据 来源偏差、版权、隐私。
清洗 去重、去噪、过滤低质样本 误删高价值长尾。
标注 给任务、动作、状态、反馈加结构 标注不一致、成本高。
合成 用模型或仿真补充稀缺场景 分布偏移、模式崩塌。
混合 确定数据配比和训练顺序 能力偏科、遗忘。
评估 检查模型能力和失败类型 指标失真、过拟合 benchmark。
回流 把失败和新场景带回数据池 闭环慢、反馈不准。

数据供应链的壁垒

数据壁垒不只在“我有数据”,还在“我知道怎样把数据变成能力”。清洗、配比、评估和回流,常常比原始数据更难复制。

本章小结

数据产业的工业化,意味着从数据源到能力之间有一整条供应链。任何一环薄弱,都会降低最终模型能力。

与前几期的连接:Agent、AI for Math 与数据

EP139 讲 Agent 技术史,EP138 讲 Agent 后训练和算力重配,EP137 讲 AI for Math 的形式验证,EP134 则提供底层数据视角。四期连起来可以看到一个共同点:下一阶段 AI 不是只靠更多参数,而是靠更好的环境、反馈、评测和数据闭环。

四期共同主线

EP139 的 Agent 需要环境反馈;EP138 的后训练需要 rollout 和 reward;EP137 的 Lean 提供硬验证;EP134 的数据引擎解释这些反馈从哪里来。它们本质上都在讨论“如何让智能持续学习”。

本章小结

数据综述不是孤立主题。它解释了 Agent、后训练、AI for Math 和机器人为什么都需要高质量反馈环境。

数据治理:版权、隐私与质量控制

数据产业一旦进入规模化,就绕不开治理问题。LLM 数据涉及版权、隐私和来源透明度;机器人数据涉及真实环境采集、用户场景、传感器记录和安全责任;仿真数据则涉及物理假设和评测偏差。没有治理,数据越多,风险越大。

治理三角

维度 需要回答的问题 失败后果
版权与授权 数据是否有合法来源和使用范围? 训练数据争议、下游商业风险。
隐私与安全 数据是否包含个人、位置、家庭、工厂或商业秘密? 泄露敏感信息,无法进入企业场景。
质量与可追溯 数据从哪里来,如何清洗,如何影响模型? 模型失败无法定位,Recipe 不可复现。

数据治理不是法务尾项

如果数据来源、清洗和授权不可追溯,模型能力越强,风险越大。机器人和企业场景尤其如此,因为数据往往包含真实空间、真实设备和真实用户行为。

质量控制的四个问题

一份数据进入训练前,至少要问四个问题:它是否代表目标任务;它是否包含模型缺的能力;它是否有可靠标签或反馈;它是否会引入错误捷径。对于仿真数据,还要额外问:仿真里学到的策略能否迁移到真实世界。

质量控制是 Recipe 的前置条件

没有质量控制,Recipe 只是玄学配比;有了质量控制,Recipe 才能变成可复现的工程方法。

本章小结

数据治理决定数据能不能长期使用。版权、隐私、可追溯和质量控制,是数据产业从“采集”走向“基础设施”的门槛。

Recipe 实践清单:如何把数据变成能力

Data Recipe 不是口号,而是一套实验流程。一个团队如果说自己有数据优势,至少要能回答:数据从哪来,如何筛选,如何混合,如何进入训练,如何评估,失败如何回流,下一轮如何调整。

七步实践清单

步骤 操作 检查点
1. 定义能力 明确要提升什么任务能力 是感知、规划、动作、恢复,还是泛化?
2. 找数据源 真实、仿真、合成、互联网、人类反馈 数据是否覆盖目标能力?
3. 清洗过滤 去重、去噪、去无关、去污染 是否误删长尾和失败案例?
4. 设配比 确定不同来源和难度比例 是否造成能力偏科?
5. 训练课程 决定先学什么后学什么 是否符合能力递进?
6. 评估反馈 用 benchmark/仿真/真实任务检查 指标是否和真实部署相关?
7. 闭环回流 把失败、长尾和新任务回到数据池 下一轮数据是否更有边际收益?

Recipe 的可复制与不可复制

流程可以复制,但具体配方难复制。因为配方来自模型、任务、硬件、评测和团队经验的交互;换一个目标能力,配方就可能要重做。

本章小结

把数据变成能力,需要从目标能力出发,而不是从手里有什么数据出发。Recipe 是能力导向的数据工程。

数据采购与自建:买数据还是造数据

产业里常见选择是买数据、采数据、造数据。买数据速度快但同质化,自建数据壁垒深但成本高,合成/仿真数据可扩展但有真实性风险。不同阶段选择不同:早期验证可以购买或合成,进入核心能力后必须建立自有闭环。

三种路径对比

路径 适用阶段 风险
买数据 快速启动、补充通用能力 同质化、授权不清、边际收益低。
采数据 建立真实任务能力 成本高、周期长、隐私和安全复杂。
造数据 长尾、危险、稀缺场景 分布偏移、评测失真、过拟合仿真。

长期壁垒来自自有闭环

可以买来的数据很难成为长期护城河。真正的壁垒来自自有任务、自有反馈、自有评测和自有 Recipe 的组合。

本章小结

数据策略不是买或造的二选一。短期可以买和合成,长期必须形成自己的数据闭环和评测体系。

术语消化:本期关键词索引

术语 一句话解释 在本期中的作用
数据金字塔 真实、仿真、互联网/人类数据的层级结构 解释机器人数据策略。
Data Engine 部署、采集、挖掘、训练、评测的闭环 数据产业核心机制。
Synthetic Data 合成/仿真生成的数据 弥补真实机器人数据不足。
World Model 对物理世界状态和未来的预测模型 与 VLA 共生。
VLA Vision-Language-Action 模型 机器人大脑的重要形式。
Sim-to-real Gap 仿真到真实世界的差距 仿真数据必须面对的问题。
Data Recipe 数据清洗、配比、顺序和反馈策略 数据壁垒所在。
Behavior Benchmark 具身任务评测集 机器人评测和世界模型评测的交汇点。

本章小结

本期关键词都指向一个结论:数据产业不是卖数据,而是构建可持续的数据闭环、评测体系和训练配方。

总结与延伸

核心结论

  1. LLM 面临数据边际收益下降,机器人面临真实数据荒漠。
  2. 机器人数据应理解为金字塔:真实端侧数据、仿真/合成数据、互联网/人类数据。
  3. Data Engine 的核心是持续发现失败、补数据、训练、评测和再部署。
  4. 数据价值不按 GB 计算,而按真实性、稀缺性、可验证性和边际收益计算。
  5. Data Recipe 是数据产业的隐性壁垒。
  6. 机器人产业版图是大模型、世界模型、VLA、本体和仿真数据公司的共生网络。
  7. 数据终点不是数据消失,而是从静态数据转向动态环境和自我学习。

开放问题

  • 机器人数据金字塔中,仿真数据能否真正跨越 sim-to-real gap?
  • 谁会掌握机器人数据闭环:本体公司、大模型公司,还是仿真数据公司?
  • Data Recipe 能否成为类似模型架构一样的核心壁垒?
  • 当 AI 自我学习增强,data factory 会变成 environment factory 吗?

拓展阅读

  • Tesla FSD data engine:理解端侧数据闭环。
  • Behavior benchmark、VLA、world model 相关论文:理解机器人评测与世界模型关系。
  • 合成数据、仿真、domain randomization、sim-to-real 相关材料:理解机器人数据的核心挑战。
  • EP137 AI for Math:理解可验证环境如何成为高质量数据源。

最后的判断

数据的未来不是“更多爬虫”,而是“更好的环境”。谁能构造可验证、可规模化、能产生失败反馈的环境,谁就能在下一阶段智能训练中占据主动。