Ep134 Owjtot14Bg0
导读:数据为什么重新成为产业主线
人工智能常被说成由数据、算力、算法三驾马车驱动。过去几年,算力和模型架构更容易被看见;但当大语言模型接近数据墙、机器人又面临数据荒漠时,数据重新成为决定产业格局的关键变量。谢晨这期访谈的价值在于,它不是讲单一数据集,而是把数据产业拆成来源、闭环、金字塔、定价、Recipe 和版图。
本期核心命题
数据不是静态原料,而是持续闭环。谁能更低成本地获得真实失败、仿真场景、可验证反馈和可复用配方,谁就能更快训练出可落地的智能系统。
视觉策略说明
本视频是固定访谈画面,没有教学 slides、白板或产品演示。按本仓库播客标准,正文不重复插入人物帧;封面用于来源识别,正文用数据金字塔、闭环和产业图谱承载教学内容。
本章小结
本期是数据产业综述:LLM 的问题是高质量数据边际收益下降,机器人的问题是物理世界数据稀缺且昂贵。两者都需要数据闭环和评测体系。
数据金字塔:真实、仿真与互联网数据
机器人数据和 LLM 数据最大的不同,是物理接地。LLM 可以从互联网获得海量文本、代码和多模态材料;机器人需要动作、状态、环境和反馈,真实采集昂贵且慢。因此谢晨强调,机器人数据更像金字塔:顶层是真实端侧数据,中层是仿真/合成数据,底层是互联网和人类数据。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{data-pyramid.png}
\caption{机器人数据金字塔:真实数据、仿真数据与互联网/人类数据。}
\end{figure}
读图:三层数据各自解决什么
顶层真实数据最贴近部署,但数量少、成本高;中层仿真数据可控、可规模化,适合生成长尾场景;底层互联网/人类数据最大规模、最低成本,但物理接地弱。机器人数据策略必须混合三层。
为什么机器人数据是荒漠
机器人不像自动驾驶,有上百万辆车每天回传真实道路数据。通用机器人尚未大规模部署,遥操作成本高,任务场景分散,本体差异大。没有端侧规模,就没有像特斯拉那样自然形成的数据引擎。因此机器人需要仿真和合成数据作为前提条件,而不只是锦上添花。
仿真不是玩具,也不是万能药
仿真能规模化生成场景和评测,但有 sim-to-real gap。真实数据少、仿真不准、互联网数据弱接地,这三者必须组合,而不是互相替代。
本章小结
机器人数据的核心矛盾是:最真实的数据最少,最多的数据最不真实。数据金字塔是解决这个矛盾的基本框架。
数据引擎:从失败到成功的数据闭环
谢晨说,最有效的数据是“先失败再成功”的数据。这句话很重要。成功轨迹告诉模型该怎么做,失败再修正的轨迹告诉模型为什么错、如何恢复、怎样从错误中学习。自动驾驶和机器人都需要这样的闭环:部署、采集、挖掘、训练、评测、再部署。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{data-engine-loop.png}
\caption{数据闭环 / Data Engine:部署、采集、挖掘、训练、评测、仿真。}
\end{figure}
读图:Data Engine 的关键是持续性
图中每一轮部署都会带回真实反馈,失败案例被挖掘成数据,训练后再通过仿真评测验证,最后重新部署。它支持的结论是:数据不是一次性购买,而是系统持续运行的结果。
特斯拉数据引擎的启示
特斯拉的数据引擎来自大量端侧车辆。车在真实世界运行,产生长尾场景和驾驶反馈,再回到云端训练,更新端侧能力。这个逻辑在机器人上不完全成立,因为机器人端侧规模不足。于是,机器人产业必须寻找新的数据引擎:仿真、合成、遥操作、失败案例挖掘、benchmark 和真实小规模部署结合。
数据引擎的本质
数据引擎不是“有很多数据”,而是有一个能持续发现错误、生成补充数据、验证改进并重新部署的循环。
本章小结
高质量数据来自闭环。机器人和 LLM 都需要反馈,但机器人的反馈更昂贵、更依赖环境和评测。
数据类型版图:LLM、世界模型、VLA 与机器人
访谈中多次提到大语言模型、世界模型、VLA、机器人大脑和物理世界 AI。这些概念容易混在一起。可以把它们放到数据类型版图中理解:文本/代码数据适合 LLM,多模态数据提供感知,机器人轨迹提供动作,仿真数据提供可控场景,失败-成功对提供高信息密度反馈。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{data-taxonomy.png}
\caption{数据类型版图:文本、代码、多模态、机器人轨迹、仿真、失败-成功对。}
\end{figure}
读图:不同模型需要不同数据
LLM 依赖文本和代码;世界模型需要物理预测相关数据;VLA 需要视觉、语言和动作;机器人策略需要端侧轨迹和反馈。数据荒不是绝对没有数据,而是缺少和目标能力匹配的数据。
术语消化:模型与数据
| 术语 | 解决的问题 | 数据需求 |
|---|---|---|
| LLM | 语言理解、推理、代码和数字世界任务 | 文本、代码、多模态语料、反馈数据。 |
| World Model | 预测物理世界状态和未来变化 | 视频、仿真、物理交互、3D/空间数据。 |
| VLA | Vision-Language-Action,连接感知、语言和动作 | 视觉、语言指令、动作轨迹、环境反馈。 |
| Physical AI | 能在物理世界行动的 AI 系统 | 本体数据、仿真、真实部署、评测。 |
| Behavior Benchmark | 面向具身任务的长程评测集 | 仿真环境、任务定义、成功判定。 |
共生关系
大模型团队、世界模型团队和 VLA 团队并不是孤立的。VLA 可能使用基础 LLM,世界模型可以作为云端大脑,VLA 可以把行动反馈给世界模型。若评测体系逐渐一致,世界模型和 VLA 的边界也可能变得更接近。
不要把世界模型和 VLA 混为一谈
世界模型更关注理解和预测物理世界;VLA 更关注在物理世界采取行动。二者会共生,但目标不同、数据不同、评估方式也不同。
本章小结
数据版图决定模型版图。LLM、世界模型、VLA 和机器人策略需要不同类型的数据,也通过评测和反馈逐渐连接。
数据定价:数据不是按 GB 卖
数据被称为新时代的石油,但这个比喻容易误导。石油按物理量卖,数据的价值却取决于真实性、稀缺性、可验证性、可复用性和边际收益。同样 1GB 数据,可能是重复网页,也可能是关键长尾失败案例;价值完全不同。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{data-pricing.png}
\caption{数据定价的五个维度:真实性、稀缺性、可验证性、可复用性、边际收益。}
\end{figure}
读图:数据价格来自边际贡献
图中五个因素共同决定数据价值。越真实、越稀缺、越可验证、越能迁移,数据越值钱;但同类数据越多,边际收益越低。数据产业的核心不是堆量,而是找到高边际收益数据。
失败数据为什么贵
失败数据贵,因为它告诉模型边界在哪里。成功轨迹可能很多都相似,失败轨迹往往暴露系统缺陷、长尾场景和恢复策略。对自动驾驶、机器人和 Agent 来说,失败-修复对比单纯成功演示更有训练价值。
最有效的数据:失败再成功
先失败再成功的数据包含错误、诊断、修正和结果。它比单纯成功数据更接近学习过程,也更适合训练恢复能力。
本章小结
数据定价应按能力提升的边际贡献,而不是按体积。高价值数据通常真实、稀缺、可验证,并能暴露模型边界。
Data Recipe:数据配方才是壁垒
同样的数据源,不同的清洗、过滤、配比、训练顺序和反馈方式,会得到不同模型能力。Recipe 是数据产业中最隐性的壁垒。它不是“买来一堆数据”,而是决定哪些数据进训练、以什么比例进、何时进、如何评估。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{data-recipe.png}
\caption{Data Recipe:来源、过滤、配比、课程、评估反馈。}
\end{figure}
读图:Recipe 为什么比原料更难复制
图中中心是 Data Recipe,周围是来源、过滤、配比、课程和评估。原料可以购买,配方来自实验、失败、评估和领域知识。Recipe 决定数据是否真正转化成能力。
术语消化:Recipe 相关概念
| 术语 | 解决的问题 | 本期中的含义 |
|---|---|---|
| Filtering | 去掉低质、重复、有害或无关数据 | 决定训练信号纯度。 |
| Mixture | 不同来源数据的比例 | 决定能力分布和偏好。 |
| Curriculum | 数据进入训练的顺序 | 决定模型先学什么、后学什么。 |
| Eval Feedback | 用评测反推数据改动 | 让 recipe 可迭代。 |
| Synthetic Data | 由模型或仿真生成的数据 | 解决真实数据稀缺,但需控制分布偏差。 |
本章小结
Data Recipe 是从数据到能力的转换器。数据产业真正难复制的部分,常常不是数据源本身,而是配方和反馈闭环。
产业版图:谁在争夺机器人和物理 AI 的数据闭环
访谈中提到几股势力:大模型团队、世界模型团队、VLA 团队、本体公司、仿真/合成数据公司。它们不是简单上下游,而是共生关系。谁掌握数据闭环,谁就更可能掌握机器人大脑。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.95\textwidth]{data-industry-landscape.png}
\caption{数据产业版图:大模型、世界模型、VLA、本体与仿真数据公司。}
\end{figure}
读图:为什么这是共生网络
大模型团队提供基座和基础设施;世界模型团队理解物理预测;VLA 团队连接动作;本体公司拥有真实机器人;仿真公司提供规模化场景。没有任何一方能单独完成全部数据闭环。
本体公司 vs 大脑公司
自动驾驶里,拥有车队的公司天然拥有端侧数据;机器人里,大规模端侧部署尚未出现,因此本体公司未必自动拥有数据优势。大脑公司如果掌握仿真和基础设施,也可能先形成能力;本体公司若能形成真实数据闭环,也会非常关键。
自动驾驶经验不能直接平移到机器人
自动驾驶有相对标准化的道路环境和大规模车队;机器人本体、任务和场景更分散。数据引擎需要重新设计,不能照搬 FSD 路线。
本章小结
机器人数据产业会是共生网络。模型、世界模型、VLA、本体和仿真数据公司都可能成为关键节点,关键看谁能形成闭环。
终点:数据会不会不重要
访谈最后问:数据问题会不会有一天彻底不重要?谢晨的回答是,他越来越认为智能越强,对知识和数据越饥渴。人越优秀越想学习,AI 也可能如此。终局可能不是“数据消失”,而是从向外部数据学习,转向在仿真和自我环境中持续学习。
评测是卡口
对机器人来说,谢晨认为最关键的问题可能是评测规模化。没有规模化评测,就不知道模型是否真的变聪明。对大语言模型和 Agent 来说,也需要更高阶的评价指标,因为模型越强,旧 benchmark 越容易失效。
评测也是数据问题
评测集不是外部裁判,而是训练和研究的反馈源。没有好的评测,数据闭环就无法判断方向。
自我学习与仿真终局
如果 AI 能在仿真环境中设定目标、尝试、失败、修正、再尝试,数据工厂不会消失,而是形态变化:从采集人类数据,转向构造环境、目标和反馈,让 AI 在其中持续学习。
从 data factory 到 environment factory
当外部数据边际收益下降,真正重要的可能是构造可学习环境。仿真、评测、reward 和失败反馈会成为新的数据工厂。
本章小结
数据不会消失,它会从静态语料转向动态环境。越强的智能,越需要更高质量的反馈和更复杂的学习环境。
LLM 数据墙与机器人数据荒漠的差异
同样说“缺数据”,LLM 和机器人缺的不是同一种东西。LLM 的问题更像高质量公开语料边际收益下降:网页、书籍、代码、论文和问答数据已经被大规模使用,继续扩展会遇到重复、污染、版权、质量和评估瓶颈。机器人则更像从一开始就缺真实交互数据:没有足够多机器人在真实环境中执行任务,就没有稳定的端侧数据流。
两类数据短缺
| 对象 | 数据短缺类型 | 典型解决路径 |
|---|---|---|
| LLM | 高质量语料边际收益下降,benchmark 变难 | 更好过滤、更好合成数据、更高阶反馈、agent 环境。 |
| 机器人 | 真实动作轨迹少、长尾场景少、采集昂贵 | 仿真、遥操作、小规模真实部署、失败数据挖掘。 |
| 世界模型 | 物理预测数据和空间动态不足 | 视频、3D、仿真、多模态预测任务。 |
| VLA | 指令、视觉、动作、反馈难统一 | 端侧轨迹、仿真任务、语言标注、action head。 |
“数据墙”不是一个统一概念
LLM 的数据墙是边际收益和质量问题;机器人的数据荒漠是物理交互和部署规模问题。混用这两个概念,会导致错误的数据策略。
本章小结
LLM 和机器人都缺数据,但缺法不同。前者需要更高质量、更高阶反馈;后者需要可规模化的物理交互和仿真闭环。
机器人数据采集方式:真实、遥操作、仿真、合成
机器人数据采集有多种路径,每一种都有成本和偏差。真实部署最贴近产品,但规模不足;遥操作能得到动作示范,但人力成本高;仿真能规模化长尾场景,但有 sim-to-real gap;互联网视频规模大,但缺少动作和反馈。高标准数据系统必须组合这些来源。
采集方式对比
| 方式 | 优点 | 代价 |
|---|---|---|
| 真实部署 | 最贴近真实任务和硬件 | 规模小、风险高、长尾少。 |
| 遥操作 | 动作示范清晰,可控性强 | 人力昂贵,操作者分布有限。 |
| 仿真 | 可规模生成、可覆盖危险/稀有场景 | 真实差距、物理建模成本。 |
| 合成数据 | 可快速补齐任务和语言标注 | 分布偏差和幻觉风险。 |
| 互联网视频 | 规模巨大,覆盖广泛场景 | 缺动作、缺状态、缺 reward。 |
为什么失败数据最值钱
失败轨迹包含边界条件和恢复信息。对机器人来说,成功示范告诉模型“怎么做”,失败后修正告诉模型“哪里会错”和“如何恢复”。这类数据比重复成功演示更有边际价值。
本章小结
机器人数据采集不是单一路径,而是多来源组合。真实部署、遥操作、仿真、合成和互联网视频各自解决不同问题。
仿真数据质量:sim-to-real gap 怎么处理
仿真是机器人数据金字塔中最关键的中间层。它能规模化生成场景、控制变量、复现失败、构造评测。但仿真数据只有在与真实世界差距可控时才有价值。否则模型会学会仿真里的捷径,而不是现实中的能力。
仿真质量的四个维度
| 维度 | 要求 | 失败表现 |
|---|---|---|
| 物理一致性 | 接触、摩擦、重力、动力学可信 | 现实中动作失效。 |
| 视觉真实度 | 材质、光照、遮挡、相机噪声合理 | 感知模型过拟合仿真画面。 |
| 任务多样性 | 覆盖长尾、异常和复杂组合 | 只会标准场景。 |
| 评测可迁移 | 仿真评测能预测真实表现 | 仿真榜单和真实部署脱节。 |
仿真不是越真实越好
过度追求视觉真实可能成本高但收益低。仿真要服务训练和评测目标:哪些变量影响策略,哪些变量只影响外观,必须分清。
本章小结
仿真数据的质量,不在于“看起来像不像”,而在于它是否能提升真实任务表现,并帮助评测真实能力。
评测是终点,也是起点
访谈最后强调,机器人和大模型都面临评测卡口。没有好评测,就无法知道模型是否真的变聪明;没有可规模化评测,就无法形成数据闭环。评测不是训练结束后的报告,而是决定下一轮数据采集和训练方向的起点。
评测的三种角色
| 角色 | 功能 | 例子 |
|---|---|---|
| 裁判 | 判断当前模型是否更强 | benchmark、端到端成功率、真实任务通过率。 |
| 数据挖掘器 | 暴露失败和长尾场景 | 失败 case 自动回流训练集。 |
| 方向盘 | 决定下一步训练和采集方向 | 哪类任务短板最大,就补哪类数据。 |
评测也是数据资产
高质量评测定义了“什么叫进步”。当模型越来越强,评测本身会成为稀缺数据,因为它需要更懂任务、更懂失败、更懂未来需求的人来设计。
本章小结
数据闭环必须以评测为中心。没有评测,就没有方向;没有方向,数据只会堆积而不会变成能力。
数据供应链:从数据源到能力的工业流程
如果把数据看成产业,就需要一条供应链:采集、授权、清洗、标注、合成、混合、训练、评估、反馈。每一环都会影响最终模型能力。数据供应链越长,越需要标准化、审计和质量控制。
数据供应链表
| 环节 | 任务 | 质量风险 |
|---|---|---|
| 采集 | 从网页、机器人、仿真、用户行为获取数据 | 来源偏差、版权、隐私。 |
| 清洗 | 去重、去噪、过滤低质样本 | 误删高价值长尾。 |
| 标注 | 给任务、动作、状态、反馈加结构 | 标注不一致、成本高。 |
| 合成 | 用模型或仿真补充稀缺场景 | 分布偏移、模式崩塌。 |
| 混合 | 确定数据配比和训练顺序 | 能力偏科、遗忘。 |
| 评估 | 检查模型能力和失败类型 | 指标失真、过拟合 benchmark。 |
| 回流 | 把失败和新场景带回数据池 | 闭环慢、反馈不准。 |
数据供应链的壁垒
数据壁垒不只在“我有数据”,还在“我知道怎样把数据变成能力”。清洗、配比、评估和回流,常常比原始数据更难复制。
本章小结
数据产业的工业化,意味着从数据源到能力之间有一整条供应链。任何一环薄弱,都会降低最终模型能力。
与前几期的连接:Agent、AI for Math 与数据
EP139 讲 Agent 技术史,EP138 讲 Agent 后训练和算力重配,EP137 讲 AI for Math 的形式验证,EP134 则提供底层数据视角。四期连起来可以看到一个共同点:下一阶段 AI 不是只靠更多参数,而是靠更好的环境、反馈、评测和数据闭环。
四期共同主线
EP139 的 Agent 需要环境反馈;EP138 的后训练需要 rollout 和 reward;EP137 的 Lean 提供硬验证;EP134 的数据引擎解释这些反馈从哪里来。它们本质上都在讨论“如何让智能持续学习”。
本章小结
数据综述不是孤立主题。它解释了 Agent、后训练、AI for Math 和机器人为什么都需要高质量反馈环境。
数据治理:版权、隐私与质量控制
数据产业一旦进入规模化,就绕不开治理问题。LLM 数据涉及版权、隐私和来源透明度;机器人数据涉及真实环境采集、用户场景、传感器记录和安全责任;仿真数据则涉及物理假设和评测偏差。没有治理,数据越多,风险越大。
治理三角
| 维度 | 需要回答的问题 | 失败后果 |
|---|---|---|
| 版权与授权 | 数据是否有合法来源和使用范围? | 训练数据争议、下游商业风险。 |
| 隐私与安全 | 数据是否包含个人、位置、家庭、工厂或商业秘密? | 泄露敏感信息,无法进入企业场景。 |
| 质量与可追溯 | 数据从哪里来,如何清洗,如何影响模型? | 模型失败无法定位,Recipe 不可复现。 |
数据治理不是法务尾项
如果数据来源、清洗和授权不可追溯,模型能力越强,风险越大。机器人和企业场景尤其如此,因为数据往往包含真实空间、真实设备和真实用户行为。
质量控制的四个问题
一份数据进入训练前,至少要问四个问题:它是否代表目标任务;它是否包含模型缺的能力;它是否有可靠标签或反馈;它是否会引入错误捷径。对于仿真数据,还要额外问:仿真里学到的策略能否迁移到真实世界。
质量控制是 Recipe 的前置条件
没有质量控制,Recipe 只是玄学配比;有了质量控制,Recipe 才能变成可复现的工程方法。
本章小结
数据治理决定数据能不能长期使用。版权、隐私、可追溯和质量控制,是数据产业从“采集”走向“基础设施”的门槛。
Recipe 实践清单:如何把数据变成能力
Data Recipe 不是口号,而是一套实验流程。一个团队如果说自己有数据优势,至少要能回答:数据从哪来,如何筛选,如何混合,如何进入训练,如何评估,失败如何回流,下一轮如何调整。
七步实践清单
| 步骤 | 操作 | 检查点 |
|---|---|---|
| 1. 定义能力 | 明确要提升什么任务能力 | 是感知、规划、动作、恢复,还是泛化? |
| 2. 找数据源 | 真实、仿真、合成、互联网、人类反馈 | 数据是否覆盖目标能力? |
| 3. 清洗过滤 | 去重、去噪、去无关、去污染 | 是否误删长尾和失败案例? |
| 4. 设配比 | 确定不同来源和难度比例 | 是否造成能力偏科? |
| 5. 训练课程 | 决定先学什么后学什么 | 是否符合能力递进? |
| 6. 评估反馈 | 用 benchmark/仿真/真实任务检查 | 指标是否和真实部署相关? |
| 7. 闭环回流 | 把失败、长尾和新任务回到数据池 | 下一轮数据是否更有边际收益? |
Recipe 的可复制与不可复制
流程可以复制,但具体配方难复制。因为配方来自模型、任务、硬件、评测和团队经验的交互;换一个目标能力,配方就可能要重做。
本章小结
把数据变成能力,需要从目标能力出发,而不是从手里有什么数据出发。Recipe 是能力导向的数据工程。
数据采购与自建:买数据还是造数据
产业里常见选择是买数据、采数据、造数据。买数据速度快但同质化,自建数据壁垒深但成本高,合成/仿真数据可扩展但有真实性风险。不同阶段选择不同:早期验证可以购买或合成,进入核心能力后必须建立自有闭环。
三种路径对比
| 路径 | 适用阶段 | 风险 |
|---|---|---|
| 买数据 | 快速启动、补充通用能力 | 同质化、授权不清、边际收益低。 |
| 采数据 | 建立真实任务能力 | 成本高、周期长、隐私和安全复杂。 |
| 造数据 | 长尾、危险、稀缺场景 | 分布偏移、评测失真、过拟合仿真。 |
长期壁垒来自自有闭环
可以买来的数据很难成为长期护城河。真正的壁垒来自自有任务、自有反馈、自有评测和自有 Recipe 的组合。
本章小结
数据策略不是买或造的二选一。短期可以买和合成,长期必须形成自己的数据闭环和评测体系。
术语消化:本期关键词索引
| 术语 | 一句话解释 | 在本期中的作用 |
|---|---|---|
| 数据金字塔 | 真实、仿真、互联网/人类数据的层级结构 | 解释机器人数据策略。 |
| Data Engine | 部署、采集、挖掘、训练、评测的闭环 | 数据产业核心机制。 |
| Synthetic Data | 合成/仿真生成的数据 | 弥补真实机器人数据不足。 |
| World Model | 对物理世界状态和未来的预测模型 | 与 VLA 共生。 |
| VLA | Vision-Language-Action 模型 | 机器人大脑的重要形式。 |
| Sim-to-real Gap | 仿真到真实世界的差距 | 仿真数据必须面对的问题。 |
| Data Recipe | 数据清洗、配比、顺序和反馈策略 | 数据壁垒所在。 |
| Behavior Benchmark | 具身任务评测集 | 机器人评测和世界模型评测的交汇点。 |
本章小结
本期关键词都指向一个结论:数据产业不是卖数据,而是构建可持续的数据闭环、评测体系和训练配方。
总结与延伸
核心结论
- LLM 面临数据边际收益下降,机器人面临真实数据荒漠。
- 机器人数据应理解为金字塔:真实端侧数据、仿真/合成数据、互联网/人类数据。
- Data Engine 的核心是持续发现失败、补数据、训练、评测和再部署。
- 数据价值不按 GB 计算,而按真实性、稀缺性、可验证性和边际收益计算。
- Data Recipe 是数据产业的隐性壁垒。
- 机器人产业版图是大模型、世界模型、VLA、本体和仿真数据公司的共生网络。
- 数据终点不是数据消失,而是从静态数据转向动态环境和自我学习。
开放问题
- 机器人数据金字塔中,仿真数据能否真正跨越 sim-to-real gap?
- 谁会掌握机器人数据闭环:本体公司、大模型公司,还是仿真数据公司?
- Data Recipe 能否成为类似模型架构一样的核心壁垒?
- 当 AI 自我学习增强,data factory 会变成 environment factory 吗?
拓展阅读
- Tesla FSD data engine:理解端侧数据闭环。
- Behavior benchmark、VLA、world model 相关论文:理解机器人评测与世界模型关系。
- 合成数据、仿真、domain randomization、sim-to-real 相关材料:理解机器人数据的核心挑战。
- EP137 AI for Math:理解可验证环境如何成为高质量数据源。
最后的判断
数据的未来不是“更多爬虫”,而是“更好的环境”。谁能构造可验证、可规模化、能产生失败反馈的环境,谁就能在下一阶段智能训练中占据主动。