Ep134 Owjtot14Bg0

导读：数据为什么重新成为产业主线

人工智能常被说成由数据、算力、算法三驾马车驱动。过去几年，算力和模型架构更容易被看见；但当大语言模型接近数据墙、机器人又面临数据荒漠时，数据重新成为决定产业格局的关键变量。谢晨这期访谈的价值在于，它不是讲单一数据集，而是把数据产业拆成来源、闭环、金字塔、定价、Recipe 和版图。

本期核心命题

数据不是静态原料，而是持续闭环。谁能更低成本地获得真实失败、仿真场景、可验证反馈和可复用配方，谁就能更快训练出可落地的智能系统。

视觉策略说明

本视频是固定访谈画面，没有教学 slides、白板或产品演示。按本仓库播客标准，正文不重复插入人物帧；封面用于来源识别，正文用数据金字塔、闭环和产业图谱承载教学内容。

本章小结

本期是数据产业综述：LLM 的问题是高质量数据边际收益下降，机器人的问题是物理世界数据稀缺且昂贵。两者都需要数据闭环和评测体系。

数据金字塔：真实、仿真与互联网数据

机器人数据和 LLM 数据最大的不同，是物理接地。LLM 可以从互联网获得海量文本、代码和多模态材料；机器人需要动作、状态、环境和反馈，真实采集昂贵且慢。因此谢晨强调，机器人数据更像金字塔：顶层是真实端侧数据，中层是仿真/合成数据，底层是互联网和人类数据。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{data-pyramid.png}
\caption{机器人数据金字塔：真实数据、仿真数据与互联网/人类数据。}
\end{figure}

读图：三层数据各自解决什么

顶层真实数据最贴近部署，但数量少、成本高；中层仿真数据可控、可规模化，适合生成长尾场景；底层互联网/人类数据最大规模、最低成本，但物理接地弱。机器人数据策略必须混合三层。

为什么机器人数据是荒漠

机器人不像自动驾驶，有上百万辆车每天回传真实道路数据。通用机器人尚未大规模部署，遥操作成本高，任务场景分散，本体差异大。没有端侧规模，就没有像特斯拉那样自然形成的数据引擎。因此机器人需要仿真和合成数据作为前提条件，而不只是锦上添花。

仿真不是玩具，也不是万能药

仿真能规模化生成场景和评测，但有 sim-to-real gap。真实数据少、仿真不准、互联网数据弱接地，这三者必须组合，而不是互相替代。

本章小结

机器人数据的核心矛盾是：最真实的数据最少，最多的数据最不真实。数据金字塔是解决这个矛盾的基本框架。

数据引擎：从失败到成功的数据闭环

谢晨说，最有效的数据是“先失败再成功”的数据。这句话很重要。成功轨迹告诉模型该怎么做，失败再修正的轨迹告诉模型为什么错、如何恢复、怎样从错误中学习。自动驾驶和机器人都需要这样的闭环：部署、采集、挖掘、训练、评测、再部署。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{data-engine-loop.png}
\caption{数据闭环 / Data Engine：部署、采集、挖掘、训练、评测、仿真。}
\end{figure}

读图：Data Engine 的关键是持续性

图中每一轮部署都会带回真实反馈，失败案例被挖掘成数据，训练后再通过仿真评测验证，最后重新部署。它支持的结论是：数据不是一次性购买，而是系统持续运行的结果。

特斯拉数据引擎的启示

特斯拉的数据引擎来自大量端侧车辆。车在真实世界运行，产生长尾场景和驾驶反馈，再回到云端训练，更新端侧能力。这个逻辑在机器人上不完全成立，因为机器人端侧规模不足。于是，机器人产业必须寻找新的数据引擎：仿真、合成、遥操作、失败案例挖掘、benchmark 和真实小规模部署结合。

数据引擎的本质

数据引擎不是“有很多数据”，而是有一个能持续发现错误、生成补充数据、验证改进并重新部署的循环。

本章小结

高质量数据来自闭环。机器人和 LLM 都需要反馈，但机器人的反馈更昂贵、更依赖环境和评测。

数据类型版图：LLM、世界模型、VLA 与机器人

访谈中多次提到大语言模型、世界模型、VLA、机器人大脑和物理世界 AI。这些概念容易混在一起。可以把它们放到数据类型版图中理解：文本/代码数据适合 LLM，多模态数据提供感知，机器人轨迹提供动作，仿真数据提供可控场景，失败-成功对提供高信息密度反馈。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{data-taxonomy.png}
\caption{数据类型版图：文本、代码、多模态、机器人轨迹、仿真、失败-成功对。}
\end{figure}

读图：不同模型需要不同数据

LLM 依赖文本和代码；世界模型需要物理预测相关数据；VLA 需要视觉、语言和动作；机器人策略需要端侧轨迹和反馈。数据荒不是绝对没有数据，而是缺少和目标能力匹配的数据。

术语消化：模型与数据

术语	解决的问题	数据需求
LLM	语言理解、推理、代码和数字世界任务	文本、代码、多模态语料、反馈数据。
World Model	预测物理世界状态和未来变化	视频、仿真、物理交互、3D/空间数据。
VLA	Vision-Language-Action，连接感知、语言和动作	视觉、语言指令、动作轨迹、环境反馈。
Physical AI	能在物理世界行动的 AI 系统	本体数据、仿真、真实部署、评测。
Behavior Benchmark	面向具身任务的长程评测集	仿真环境、任务定义、成功判定。

共生关系

大模型团队、世界模型团队和 VLA 团队并不是孤立的。VLA 可能使用基础 LLM，世界模型可以作为云端大脑，VLA 可以把行动反馈给世界模型。若评测体系逐渐一致，世界模型和 VLA 的边界也可能变得更接近。

不要把世界模型和 VLA 混为一谈

世界模型更关注理解和预测物理世界；VLA 更关注在物理世界采取行动。二者会共生，但目标不同、数据不同、评估方式也不同。

本章小结

数据版图决定模型版图。LLM、世界模型、VLA 和机器人策略需要不同类型的数据，也通过评测和反馈逐渐连接。

数据定价：数据不是按 GB 卖

数据被称为新时代的石油，但这个比喻容易误导。石油按物理量卖，数据的价值却取决于真实性、稀缺性、可验证性、可复用性和边际收益。同样 1GB 数据，可能是重复网页，也可能是关键长尾失败案例；价值完全不同。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{data-pricing.png}
\caption{数据定价的五个维度：真实性、稀缺性、可验证性、可复用性、边际收益。}
\end{figure}

读图：数据价格来自边际贡献

图中五个因素共同决定数据价值。越真实、越稀缺、越可验证、越能迁移，数据越值钱；但同类数据越多，边际收益越低。数据产业的核心不是堆量，而是找到高边际收益数据。

失败数据为什么贵

失败数据贵，因为它告诉模型边界在哪里。成功轨迹可能很多都相似，失败轨迹往往暴露系统缺陷、长尾场景和恢复策略。对自动驾驶、机器人和 Agent 来说，失败-修复对比单纯成功演示更有训练价值。

最有效的数据：失败再成功

先失败再成功的数据包含错误、诊断、修正和结果。它比单纯成功数据更接近学习过程，也更适合训练恢复能力。

本章小结

数据定价应按能力提升的边际贡献，而不是按体积。高价值数据通常真实、稀缺、可验证，并能暴露模型边界。

Data Recipe：数据配方才是壁垒

同样的数据源，不同的清洗、过滤、配比、训练顺序和反馈方式，会得到不同模型能力。Recipe 是数据产业中最隐性的壁垒。它不是“买来一堆数据”，而是决定哪些数据进训练、以什么比例进、何时进、如何评估。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{data-recipe.png}
\caption{Data Recipe：来源、过滤、配比、课程、评估反馈。}
\end{figure}

读图：Recipe 为什么比原料更难复制

图中中心是 Data Recipe，周围是来源、过滤、配比、课程和评估。原料可以购买，配方来自实验、失败、评估和领域知识。Recipe 决定数据是否真正转化成能力。

术语消化：Recipe 相关概念

术语	解决的问题	本期中的含义
Filtering	去掉低质、重复、有害或无关数据	决定训练信号纯度。
Mixture	不同来源数据的比例	决定能力分布和偏好。
Curriculum	数据进入训练的顺序	决定模型先学什么、后学什么。
Eval Feedback	用评测反推数据改动	让 recipe 可迭代。
Synthetic Data	由模型或仿真生成的数据	解决真实数据稀缺，但需控制分布偏差。

本章小结

Data Recipe 是从数据到能力的转换器。数据产业真正难复制的部分，常常不是数据源本身，而是配方和反馈闭环。

产业版图：谁在争夺机器人和物理 AI 的数据闭环

访谈中提到几股势力：大模型团队、世界模型团队、VLA 团队、本体公司、仿真/合成数据公司。它们不是简单上下游，而是共生关系。谁掌握数据闭环，谁就更可能掌握机器人大脑。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.95\textwidth]{data-industry-landscape.png}
\caption{数据产业版图：大模型、世界模型、VLA、本体与仿真数据公司。}
\end{figure}

读图：为什么这是共生网络

大模型团队提供基座和基础设施；世界模型团队理解物理预测；VLA 团队连接动作；本体公司拥有真实机器人；仿真公司提供规模化场景。没有任何一方能单独完成全部数据闭环。

本体公司 vs 大脑公司

自动驾驶里，拥有车队的公司天然拥有端侧数据；机器人里，大规模端侧部署尚未出现，因此本体公司未必自动拥有数据优势。大脑公司如果掌握仿真和基础设施，也可能先形成能力；本体公司若能形成真实数据闭环，也会非常关键。

自动驾驶经验不能直接平移到机器人

自动驾驶有相对标准化的道路环境和大规模车队；机器人本体、任务和场景更分散。数据引擎需要重新设计，不能照搬 FSD 路线。

本章小结

机器人数据产业会是共生网络。模型、世界模型、VLA、本体和仿真数据公司都可能成为关键节点，关键看谁能形成闭环。

终点：数据会不会不重要

访谈最后问：数据问题会不会有一天彻底不重要？谢晨的回答是，他越来越认为智能越强，对知识和数据越饥渴。人越优秀越想学习，AI 也可能如此。终局可能不是“数据消失”，而是从向外部数据学习，转向在仿真和自我环境中持续学习。

评测是卡口

对机器人来说，谢晨认为最关键的问题可能是评测规模化。没有规模化评测，就不知道模型是否真的变聪明。对大语言模型和 Agent 来说，也需要更高阶的评价指标，因为模型越强，旧 benchmark 越容易失效。

评测也是数据问题

评测集不是外部裁判，而是训练和研究的反馈源。没有好的评测，数据闭环就无法判断方向。

自我学习与仿真终局

如果 AI 能在仿真环境中设定目标、尝试、失败、修正、再尝试，数据工厂不会消失，而是形态变化：从采集人类数据，转向构造环境、目标和反馈，让 AI 在其中持续学习。

从 data factory 到 environment factory

当外部数据边际收益下降，真正重要的可能是构造可学习环境。仿真、评测、reward 和失败反馈会成为新的数据工厂。

本章小结

数据不会消失，它会从静态语料转向动态环境。越强的智能，越需要更高质量的反馈和更复杂的学习环境。

LLM 数据墙与机器人数据荒漠的差异

同样说“缺数据”，LLM 和机器人缺的不是同一种东西。LLM 的问题更像高质量公开语料边际收益下降：网页、书籍、代码、论文和问答数据已经被大规模使用，继续扩展会遇到重复、污染、版权、质量和评估瓶颈。机器人则更像从一开始就缺真实交互数据：没有足够多机器人在真实环境中执行任务，就没有稳定的端侧数据流。

两类数据短缺

对象	数据短缺类型	典型解决路径
LLM	高质量语料边际收益下降，benchmark 变难	更好过滤、更好合成数据、更高阶反馈、agent 环境。
机器人	真实动作轨迹少、长尾场景少、采集昂贵	仿真、遥操作、小规模真实部署、失败数据挖掘。
世界模型	物理预测数据和空间动态不足	视频、3D、仿真、多模态预测任务。
VLA	指令、视觉、动作、反馈难统一	端侧轨迹、仿真任务、语言标注、action head。

“数据墙”不是一个统一概念

LLM 的数据墙是边际收益和质量问题；机器人的数据荒漠是物理交互和部署规模问题。混用这两个概念，会导致错误的数据策略。

本章小结

LLM 和机器人都缺数据，但缺法不同。前者需要更高质量、更高阶反馈；后者需要可规模化的物理交互和仿真闭环。

机器人数据采集方式：真实、遥操作、仿真、合成

机器人数据采集有多种路径，每一种都有成本和偏差。真实部署最贴近产品，但规模不足；遥操作能得到动作示范，但人力成本高；仿真能规模化长尾场景，但有 sim-to-real gap；互联网视频规模大，但缺少动作和反馈。高标准数据系统必须组合这些来源。

采集方式对比

方式	优点	代价
真实部署	最贴近真实任务和硬件	规模小、风险高、长尾少。
遥操作	动作示范清晰，可控性强	人力昂贵，操作者分布有限。
仿真	可规模生成、可覆盖危险/稀有场景	真实差距、物理建模成本。
合成数据	可快速补齐任务和语言标注	分布偏差和幻觉风险。
互联网视频	规模巨大，覆盖广泛场景	缺动作、缺状态、缺 reward。

为什么失败数据最值钱

失败轨迹包含边界条件和恢复信息。对机器人来说，成功示范告诉模型“怎么做”，失败后修正告诉模型“哪里会错”和“如何恢复”。这类数据比重复成功演示更有边际价值。

本章小结

机器人数据采集不是单一路径，而是多来源组合。真实部署、遥操作、仿真、合成和互联网视频各自解决不同问题。

仿真数据质量：sim-to-real gap 怎么处理

仿真是机器人数据金字塔中最关键的中间层。它能规模化生成场景、控制变量、复现失败、构造评测。但仿真数据只有在与真实世界差距可控时才有价值。否则模型会学会仿真里的捷径，而不是现实中的能力。

仿真质量的四个维度

维度	要求	失败表现
物理一致性	接触、摩擦、重力、动力学可信	现实中动作失效。
视觉真实度	材质、光照、遮挡、相机噪声合理	感知模型过拟合仿真画面。
任务多样性	覆盖长尾、异常和复杂组合	只会标准场景。
评测可迁移	仿真评测能预测真实表现	仿真榜单和真实部署脱节。

仿真不是越真实越好

过度追求视觉真实可能成本高但收益低。仿真要服务训练和评测目标：哪些变量影响策略，哪些变量只影响外观，必须分清。

本章小结

仿真数据的质量，不在于“看起来像不像”，而在于它是否能提升真实任务表现，并帮助评测真实能力。

评测是终点，也是起点

访谈最后强调，机器人和大模型都面临评测卡口。没有好评测，就无法知道模型是否真的变聪明；没有可规模化评测，就无法形成数据闭环。评测不是训练结束后的报告，而是决定下一轮数据采集和训练方向的起点。

评测的三种角色

角色	功能	例子
裁判	判断当前模型是否更强	benchmark、端到端成功率、真实任务通过率。
数据挖掘器	暴露失败和长尾场景	失败 case 自动回流训练集。
方向盘	决定下一步训练和采集方向	哪类任务短板最大，就补哪类数据。

评测也是数据资产

高质量评测定义了“什么叫进步”。当模型越来越强，评测本身会成为稀缺数据，因为它需要更懂任务、更懂失败、更懂未来需求的人来设计。

本章小结

数据闭环必须以评测为中心。没有评测，就没有方向；没有方向，数据只会堆积而不会变成能力。

数据供应链：从数据源到能力的工业流程

如果把数据看成产业，就需要一条供应链：采集、授权、清洗、标注、合成、混合、训练、评估、反馈。每一环都会影响最终模型能力。数据供应链越长，越需要标准化、审计和质量控制。

数据供应链表

环节	任务	质量风险
采集	从网页、机器人、仿真、用户行为获取数据	来源偏差、版权、隐私。
清洗	去重、去噪、过滤低质样本	误删高价值长尾。
标注	给任务、动作、状态、反馈加结构	标注不一致、成本高。
合成	用模型或仿真补充稀缺场景	分布偏移、模式崩塌。
混合	确定数据配比和训练顺序	能力偏科、遗忘。
评估	检查模型能力和失败类型	指标失真、过拟合 benchmark。
回流	把失败和新场景带回数据池	闭环慢、反馈不准。

数据供应链的壁垒

数据壁垒不只在“我有数据”，还在“我知道怎样把数据变成能力”。清洗、配比、评估和回流，常常比原始数据更难复制。

本章小结

数据产业的工业化，意味着从数据源到能力之间有一整条供应链。任何一环薄弱，都会降低最终模型能力。

与前几期的连接：Agent、AI for Math 与数据

EP139 讲 Agent 技术史，EP138 讲 Agent 后训练和算力重配，EP137 讲 AI for Math 的形式验证，EP134 则提供底层数据视角。四期连起来可以看到一个共同点：下一阶段 AI 不是只靠更多参数，而是靠更好的环境、反馈、评测和数据闭环。

四期共同主线

EP139 的 Agent 需要环境反馈；EP138 的后训练需要 rollout 和 reward；EP137 的 Lean 提供硬验证；EP134 的数据引擎解释这些反馈从哪里来。它们本质上都在讨论“如何让智能持续学习”。

本章小结

数据综述不是孤立主题。它解释了 Agent、后训练、AI for Math 和机器人为什么都需要高质量反馈环境。

数据治理：版权、隐私与质量控制

数据产业一旦进入规模化，就绕不开治理问题。LLM 数据涉及版权、隐私和来源透明度；机器人数据涉及真实环境采集、用户场景、传感器记录和安全责任；仿真数据则涉及物理假设和评测偏差。没有治理，数据越多，风险越大。

治理三角

维度	需要回答的问题	失败后果
版权与授权	数据是否有合法来源和使用范围？	训练数据争议、下游商业风险。
隐私与安全	数据是否包含个人、位置、家庭、工厂或商业秘密？	泄露敏感信息，无法进入企业场景。
质量与可追溯	数据从哪里来，如何清洗，如何影响模型？	模型失败无法定位，Recipe 不可复现。

数据治理不是法务尾项

如果数据来源、清洗和授权不可追溯，模型能力越强，风险越大。机器人和企业场景尤其如此，因为数据往往包含真实空间、真实设备和真实用户行为。

质量控制的四个问题

一份数据进入训练前，至少要问四个问题：它是否代表目标任务；它是否包含模型缺的能力；它是否有可靠标签或反馈；它是否会引入错误捷径。对于仿真数据，还要额外问：仿真里学到的策略能否迁移到真实世界。

质量控制是 Recipe 的前置条件

没有质量控制，Recipe 只是玄学配比；有了质量控制，Recipe 才能变成可复现的工程方法。

本章小结

数据治理决定数据能不能长期使用。版权、隐私、可追溯和质量控制，是数据产业从“采集”走向“基础设施”的门槛。

Recipe 实践清单：如何把数据变成能力

Data Recipe 不是口号，而是一套实验流程。一个团队如果说自己有数据优势，至少要能回答：数据从哪来，如何筛选，如何混合，如何进入训练，如何评估，失败如何回流，下一轮如何调整。

七步实践清单

步骤	操作	检查点
1. 定义能力	明确要提升什么任务能力	是感知、规划、动作、恢复，还是泛化？
2. 找数据源	真实、仿真、合成、互联网、人类反馈	数据是否覆盖目标能力？
3. 清洗过滤	去重、去噪、去无关、去污染	是否误删长尾和失败案例？
4. 设配比	确定不同来源和难度比例	是否造成能力偏科？
5. 训练课程	决定先学什么后学什么	是否符合能力递进？
6. 评估反馈	用 benchmark/仿真/真实任务检查	指标是否和真实部署相关？
7. 闭环回流	把失败、长尾和新任务回到数据池	下一轮数据是否更有边际收益？

Recipe 的可复制与不可复制

流程可以复制，但具体配方难复制。因为配方来自模型、任务、硬件、评测和团队经验的交互；换一个目标能力，配方就可能要重做。

本章小结

把数据变成能力，需要从目标能力出发，而不是从手里有什么数据出发。Recipe 是能力导向的数据工程。

数据采购与自建：买数据还是造数据

产业里常见选择是买数据、采数据、造数据。买数据速度快但同质化，自建数据壁垒深但成本高，合成/仿真数据可扩展但有真实性风险。不同阶段选择不同：早期验证可以购买或合成，进入核心能力后必须建立自有闭环。

三种路径对比

路径	适用阶段	风险
买数据	快速启动、补充通用能力	同质化、授权不清、边际收益低。
采数据	建立真实任务能力	成本高、周期长、隐私和安全复杂。
造数据	长尾、危险、稀缺场景	分布偏移、评测失真、过拟合仿真。

长期壁垒来自自有闭环

可以买来的数据很难成为长期护城河。真正的壁垒来自自有任务、自有反馈、自有评测和自有 Recipe 的组合。

本章小结

数据策略不是买或造的二选一。短期可以买和合成，长期必须形成自己的数据闭环和评测体系。

术语消化：本期关键词索引

术语	一句话解释	在本期中的作用
数据金字塔	真实、仿真、互联网/人类数据的层级结构	解释机器人数据策略。
Data Engine	部署、采集、挖掘、训练、评测的闭环	数据产业核心机制。
Synthetic Data	合成/仿真生成的数据	弥补真实机器人数据不足。
World Model	对物理世界状态和未来的预测模型	与 VLA 共生。
VLA	Vision-Language-Action 模型	机器人大脑的重要形式。
Sim-to-real Gap	仿真到真实世界的差距	仿真数据必须面对的问题。
Data Recipe	数据清洗、配比、顺序和反馈策略	数据壁垒所在。
Behavior Benchmark	具身任务评测集	机器人评测和世界模型评测的交汇点。

本章小结

本期关键词都指向一个结论：数据产业不是卖数据，而是构建可持续的数据闭环、评测体系和训练配方。

总结与延伸

核心结论

LLM 面临数据边际收益下降，机器人面临真实数据荒漠。
机器人数据应理解为金字塔：真实端侧数据、仿真/合成数据、互联网/人类数据。
Data Engine 的核心是持续发现失败、补数据、训练、评测和再部署。
数据价值不按 GB 计算，而按真实性、稀缺性、可验证性和边际收益计算。
Data Recipe 是数据产业的隐性壁垒。
机器人产业版图是大模型、世界模型、VLA、本体和仿真数据公司的共生网络。
数据终点不是数据消失，而是从静态数据转向动态环境和自我学习。

开放问题

机器人数据金字塔中，仿真数据能否真正跨越 sim-to-real gap？
谁会掌握机器人数据闭环：本体公司、大模型公司，还是仿真数据公司？
Data Recipe 能否成为类似模型架构一样的核心壁垒？
当 AI 自我学习增强，data factory 会变成 environment factory 吗？

拓展阅读

Tesla FSD data engine：理解端侧数据闭环。
Behavior benchmark、VLA、world model 相关论文：理解机器人评测与世界模型关系。
合成数据、仿真、domain randomization、sim-to-real 相关材料：理解机器人数据的核心挑战。
EP137 AI for Math：理解可验证环境如何成为高质量数据源。

最后的判断

数据的未来不是“更多爬虫”，而是“更好的环境”。谁能构造可验证、可规模化、能产生失败反馈的环境，谁就能在下一阶段智能训练中占据主动。