跳转至

Ep132 N4 C Hsodpg

LaTeX 源码 · 备用 PDF · 观看视频

导读:机器人创业为什么“不浪漫”

本节先把阅读方式定下来:不要把它当成“谁离开了哪家公司”的新闻八卦,也不要只当成星海图的公司宣传。更有价值的读法,是把它看作一个创业者如何把自动驾驶训练迁移到具身智能的口述案例。

这期访谈表面上是星海图创始人高继扬的个人经历,实际是一堂关于“物理世界 AI 公司怎么长出来”的产业课。主持人一开始提出一个疑惑:为什么中国具身智能行业里,很少出现像大模型创业那样带有浓厚技术浪漫主义的人?高继扬给出的答案贯穿全场:机器人链条极长,周期极长,团队天然要把头伸到土里。

这里的“土里”不是消极词,而是物理世界的真实约束:整机、供应链、数据采集、客户现场、端侧延迟、维修、渠道、融资和组织成长。大模型或软件应用可以先从模型和传播启动,机器人公司却很难绕开硬件和客户价值。因此,这份笔记把本期整理成“物理世界 AI 的产业训练营”:Waymo 教他系统工程,Momenta 教他量产交付,星海图把整机、数据、模型和客户闭环重新组合。

本期核心命题

具身智能不是“算法公司加一个机器人壳”,而是一条从整机、供应链、数据体系、AI infra、算法模型、分销渠道到客户价值的长链条。短期算法可快速传播,长期壁垒更可能来自真实世界闭环。

视觉策略说明

本视频是固定访谈画面,没有 slides、白板或产品演示。按播客笔记标准,正文不重复插入人物帧;封面用于来源识别,正文使用自动驾驶商业模式、数据飞轮、机器人大脑双系统等概念图来解释访谈内容。

本章小结

本期不是简单的创始人故事,而是自动驾驶经验如何迁移到具身智能的案例。后文会依次讨论高继扬的方法论、Waymo 与 Momenta 的对照、星海图的整机供应链选择、Data Recipe、VLM/VLA 机器人大脑,以及“许华哲离开”背后的组织取舍。

从归纳总结到物理世界 AI

高继扬反复讲一个方法:归纳总结。小学、物理竞赛、博士发论文、工作面试和创业选择,都被他处理成“先设目标,再拆路径,再提高命中概率”。这种方法听起来朴素,却解释了他为什么会从清华电子系、深度学习、计算机视觉、自动驾驶一路走到具身智能。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{trajectory-industrial-training.png}
\caption{高继扬的产业训练路径:归纳总结、AI 入门、Waymo、Momenta、星海图。}
\end{figure}

读图:三种能力如何叠加

图中路线不是履历罗列。早期物理竞赛和博士阶段训练的是归纳、拆解和概率管理;商汤实习让他第一次感到神经网络能从数据中自动提炼规律;Waymo 训练系统工程和测量;Momenta 训练产品交付和客户价值;星海图则把这些能力带到具身智能。

曾国藩:从清流到事功

前面讲高继扬的“归纳总结”,这一节要解释他的现实主义从哪里来。曾国藩这个例子并不是历史装饰,而是他理解创业组织的一个早期模板。

访谈中高继扬谈到申请学校受挫后读曾国藩。他关注的不是历史趣味,而是“一个儒家清流怎样变成能调动资源、组织队伍、打现实世界硬仗的人”。这段内容是理解他创业观的钥匙:做现实世界的事,不能只靠理念、论文或聪明,而要能拉动资源、组织人、承担结果。

事功视角

所谓事功,不是短期功利,而是把目标落实成资源、组织、行动和结果。机器人创业尤其需要这种视角,因为它的每一步都要在现实世界里兑现。

深度学习的吸引力

在商汤实习时,他第一次训练神经网络,感受到“机器从数据里自己提炼规律”的魔力。传统编程是人总结规则,再把规则写成代码;机器学习则把规则压进参数,让模型从数据分布中学习。这一刻奠定了他后面对 AI 的理解:AI 的价值不只是自动化,而是改变人类发现规律和构造生产力的方式。

术语消化:从规则到学习

术语 解决的问题 本期中的意义
Rule-based 人手写规则、模块和 if-else 传统自动驾驶和机器人系统的重要底座。
Data-driven 从数据中学习规律 高继扬选择 AI 和自动驾驶的核心理由。
Benchmark 用统一评测衡量模型表现 发论文、模型迭代和数据 recipe 都需要它。
Physical World AI AI 直接作用于物理世界任务 自动驾驶是第一种形态,具身智能是下一种形态。

本章小结

高继扬的主线是:把个人勤奋转化成可复用方法,再把 AI 的数据驱动能力放到物理世界里。自动驾驶和机器人吸引他的地方,正是 AI 成为行业底层变量,而不是局部优化工具。

Waymo:系统工程与工程师思维

博士毕业后,他选择自动驾驶,因为它是当时最清晰的 physical world AI 形态。他在 Waymo 的学习重点,不只是自动驾驶算法,而是自动驾驶整套系统如何工作:感知、定位、离线高精地图、预测、决策、规划、控制、仿真和云端工具链如何组合成一个可靠系统。

自动驾驶架构的历史连续性

他回看 2008 年前后的自动驾驶论文后发现,2018 年左右的总体架构和早期框架并无根本差异:系统仍然被拆成感知、定位、地图、规控等模块。真正变化的是 AI 技术成熟后,许多感知模块从 clustering、规则和传统方法逐步替换成神经网络。

这带来一个重要区分:传统自动驾驶大架构的底层逻辑更接近 robotics,强调模块化、可解释和 corner case;AI native 路线更强调数据驱动、端到端和整体 benchmark 改善。两者不是简单谁对谁错,而是在可靠性、可迭代性、可解释性和规模化之间做不同取舍。

模块化不是落后,端到端也不是万能

模块化系统更容易定位 corner case 和责任边界,但可能转向慢、局部规则堆积;端到端系统更容易用数据提升整体指标,但可能引入不可解释失败。物理世界 AI 常常需要在两者之间重新设计边界。

工程师思维:拆解与测量

高继扬总结 Waymo 给他的核心训练是工程师思维:拆解加测量。把复杂问题拆成可处理的子问题,再拆到代码和测试;同时从顶层指标、中间指标到底层单元测试建立测量体系。这和物理竞赛的解题不同,后者更多是题型映射,工程系统则要持续运转、持续定位问题、持续回到总体目标。

工程师思维

工程师思维不是“会写代码”,而是把复杂系统拆成可验证模块,并用指标体系把局部改动和顶层结果连接起来。

本章小结

Waymo 给高继扬的是完整系统观和工程训练:知道物理世界 AI 系统如何拆,如何测,如何长期执行。但它离客户、产品和公司经营较远,因此他下一步选择去更接近量产交付的 Momenta。

Momenta:量产、客户价值与“鲶鱼”

Waymo 这一章解释了系统如何被拆解,Momenta 这一章则解释系统如何被客户检验。对高继扬来说,从 Waymo 到 Momenta,不是从好公司跳到另一家好公司,而是从工程师训练场进入量产交付现场。

如果说 Waymo 是工程师天堂,Momenta 则是量产战场。高继扬选择 Momenta,是因为他想从自动驾驶系统走向产品、客户和公司经营,尤其想理解一个 demo 级系统如何变成车企可交付的产品。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{waymo-momenta-contrast.png}
\caption{Waymo 与 Momenta:两种极端组织训练。}
\end{figure}

读图:两个组织分别训练什么

左侧 Waymo 训练系统工程、infra、代码质量和长期战略执行;右侧 Momenta 训练交付、客户沟通、组织调整和商业价值循环。一个让人学会系统怎样 work,另一个让人学会系统怎样被客户使用、付费和倒逼迭代。

为什么量产是数据路线

Momenta 的核心逻辑是:自动驾驶最终需要大量真实数据。如果只靠自营车队,覆盖城市和场景太慢;如果把辅助驾驶或泊车等能力装到量产车上,先为客户创造价值,再通过量产车获得数据,就能形成商业驱动的数据循环。这里的关键不是“卖给车企”本身,而是数据获取不再是纯成本,而是被客户价值支付。

数据与商业价值循环

量产不是单纯交付项目,而是让产品进入真实车、真实客户和真实道路,从而把数据采集变成商业驱动行为。客户价值越明确,数据回流越可持续。

鲶鱼角色

前面讲 Momenta 的组织转型,这里把镜头拉回高继扬本人。所谓鲶鱼,不是一个性格标签,而是一种在高压交付环境里被反复锻炼出来的系统介入方式。

访谈标题里的“鲶鱼”,指高继扬在 Momenta 被灵活地放到不同模块:感知、定位、泊车、infra、规控、NOA 量产。他自己的总结是:快速进入不熟悉领域,用固定方法论理解系统,拆解任务,做人事匹配,监控反馈,反馈好就扩大,反馈不好就收缩调整。

鲶鱼方法论

鲶鱼不是到处搅动,而是把系统变得更会反应。它的动作包括:进入陌生领域、快速建立地图、拆任务、配人、设指标、看反馈、调组织。

本章小结

Momenta 给高继扬的是客户价值和组织压力的训练。它让他看到,一个技术团队若要变成产品公司,就必须经历交付、淘汰、调整和量产的洗礼。

自动驾驶商业模式:谁拥有数据和客户

讲完 Waymo 和 Momenta 的个人训练后,需要抽象到商业模式层面。因为自动驾驶和机器人一样,技术路线从来不是纯技术选择,而是和数据入口、客户关系、利润池绑定在一起。

高继扬在访谈中把自动驾驶商业模式分成几类:Waymo 式 robotaxi,车企的卖车加软件订阅,Momenta 式供应商,以及类似华为的整车利润平台。这个分类帮助我们理解技术路线为什么会分叉:谁拥有车、谁拥有用户、谁拥有数据、谁承担服务责任,会直接影响技术架构和组织能力。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{autonomous-driving-business-models.png}
\caption{自动驾驶的四种商业模式:Robotaxi、车企订阅、供应商、整车利润平台。}
\end{figure}

读图:商业模式决定数据循环

Robotaxi 自营车队,数据和服务都在自己手里,但规模化慢;车企订阅拥有车辆和用户,能直接拿到数据;供应商要通过车企项目进入量产,客户价值和数据回流都依赖合作;整车利润平台则通过品牌、渠道、智驾和座舱重定义整车利润池。

为什么这对机器人有启发

前面的分类来自自动驾驶,但本节要做迁移:机器人没有现成汽车市场,也没有天然车队数据。正因为没有这些前提,自动驾驶经验只能提供框架,不能直接提供答案。

具身智能还没有像汽车那样成熟的需求侧和车队规模。自动驾驶给机器人的启发不是照搬 robotaxi 或供应商模式,而是看清数据闭环必须和客户价值绑定。机器人若没有真实场景和出货,就没有持续数据;没有数据,就难以训练动作基础模型;没有模型能力,就无法提升客户价值。

自动驾驶经验不能机械复制

汽车本身已有巨大市场,车能卖出去;通用机器人本体还没有同样成熟需求。机器人必须同时创造硬件需求、场景价值和数据闭环,难度比“把自动驾驶路线搬过来”更高。

本章小结

自动驾驶商业模式的底层问题是:数据从哪里来,客户价值怎么形成,系统如何迭代。具身智能同样绕不开这些问题,只是它的需求、硬件和场景更分散。

从糟糕 BP 到整机供应链

现在进入星海图本体。前面几章解释高继扬为什么相信 physical world AI,也解释他从自动驾驶学到了什么;这一章回答他创业时最关键的选择:为什么具身智能公司不能只做算法。

星海图的早期转折来自一个判断:如果要做具身智能,不能只做“智能”,必须做整机。高继扬在访谈中说,机器人要真正形成数据和模型闭环,必须有自己的本体、硬件、供应链和客户场景。否则基础模型再好,也缺少稳定的真实世界入口。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{three-product-combo.png}
\caption{星海图的三件套:整机、基础模型、后训练工具。}
\end{figure}

读图:为什么是三件套

图中三件套对应一个目标体验:像培训员工一样培训机器人。整机提供物理入口和数据采集能力;基础模型提供通用动作和理解底座;后训练工具让客户用少量示范和自我演练完成场景适配。缺少任一项,都很难把机器人从 demo 推到生产力场景。

24、25、26 的节奏

三件套说明了最终结构,但创业公司不能一次性把所有能力铺开。本节关注节奏,因为节奏决定组织是否能承受复杂度。

高继扬给出的节奏是:2024 年重心是整机和供应链,2025 年是数据智能,2026 年开始做长期供应链。这种节奏体现了“步步为营”:长期战略坚持,但不在一个时间段内同步铺开所有事情。机器人公司如果过早同时追求硬件、模型、应用、渠道和客户,组织很容易被复杂度击穿。

步步为营的战略含义

步步为营不是保守,而是按依赖关系推进。没有整机和供应链,就没有稳定数据;没有稳定数据,就没有好的 VLA;没有可用模型,就难以形成客户价值。

本章小结

星海图选择整机,不是因为硬件本身更性感,而是因为整机是数据、模型和客户闭环的入口。具身智能公司要把智能做深,反而要先把物理链条做实。

Data Recipe:数据不是库存,而是闭环

有了整机和供应链,下一步才谈得上数据。这里的顺序不能倒过来:机器人数据不是从网上下载的文本,而是在硬件、场景、任务和客户反馈中被生产出来的。

EP132 与 EP134 的“数据综述”可以互相照亮。高继扬这里讲的 Data Recipe,核心不是把数据当产品卖,而是把整机、场景、任务、采集、训练、评测和开源生态连成可迭代飞轮。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{robot-data-recipe-flywheel.png}
\caption{机器人 Data Recipe 飞轮:整机部署、数据采集、模型训练、现场价值、错误回流和开放共享。}
\end{figure}

读图:为什么 Data Recipe 不是卖数据

图中的数据来自真实硬件和场景。整机进入开发者或生产力场景后产生轨迹、失败和反馈;这些数据训练 VLA、基础模型和后训练工具;模型创造客户价值后带来更多场景与反馈。数据不是静态库存,而是由产品和客户持续生成的学习燃料。

万台出货为什么重要

高继扬把“在生产力场景做出万台出货量”称为当下的重要 bet。这个目标不是单纯销量数字,而是数据、供应链、质量和客户价值的综合验证。万台意味着硬件能交付,客户愿意用,维护体系能跟上,数据回流能规模化。

术语消化:机器人数据闭环

术语 解决的问题 本期中的含义
Data Recipe 数据来源、筛选、训练和反馈配方 决定真实数据如何变成模型能力。
Demo in Video 视频里看起来成立的演示 容易塑造过高预期。
Demo in Office 在公司办公室现场展示 比视频更强,但仍是可控环境。
Demo in the Wild 在客户、展会、跨国家场景中部署演示 更接近真实泛化能力。
生产力场景 客户用机器人完成实际工作 数据和商业价值闭环的来源。

开源与分享

星海图开源数据集和模型,并向客户分享数据。高继扬强调数据不是主要业务,但乐于分享。这可以理解为生态策略:让更多开发者和客户验证任务、暴露需求、形成反馈,从而扩大基础模型和工具链的使用场景。

本章小结

Data Recipe 的本质是把整机、客户和模型训练连起来。机器人公司真正稀缺的不是“有一批数据”,而是持续产生高价值数据、评测和反馈的机制。

机器人大脑:VLM 与 VLA 的双系统

数据闭环解决“模型吃什么”,机器人大脑则解决“模型怎样行动”。这也是本期从产业分析回到技术结构的地方。

当主持人问“大脑怎么做”时,高继扬把机器人大脑拆成两个基础模型:一个是上层的 VLM,用于指令拆解、逻辑思考和任务规划;另一个是动作基础模型 VLA,用 vision 和 language 产生 action,驱动本体执行任务。这是本期最关键的技术结构。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{robot-brain-dual-system.png}
\caption{机器人大脑的双系统结构:VLM 拆解指令,VLA 产生动作。}
\end{figure}

读图:VLM 与 VLA 为什么要拆开

VLM 适合处理模糊指令、逻辑拆解和更通用的任务规划;VLA 必须低延迟地产生动作,很多时候要跑在端侧。工业场景中任务集合有限,可能直接调用 VLA 的语言接口;家庭等通用场景更需要 VLM 参与复杂拆解。

端侧延迟与云端推理

高继扬特别指出,执行动作的模型如果放在云上,延迟会成为很难解决的问题。因此 VLA 作为动作模型,往往需要部署在端侧。VLM 是否必须实时参与,则取决于场景复杂度。二三十个固定动作的工商业场景,可能不需要每一步都调用 VLM;更通用的家庭场景,VLM 才是不可或缺的组成部分。

不要把“机器人大脑”想成一个大模型

机器人大脑不是一个单体 LLM。它至少包含任务拆解、动作生成、端侧控制、感知输入、反馈回流和安全约束。把它简化成“接一个大语言模型”,会低估部署和延迟问题。

创业公司相对大厂的优势

上一节拆开了 VLM 和 VLA,这一节回答竞争问题:大厂有基础模型、算力和人才,创业公司凭什么做机器人大脑?高继扬的答案不是泛泛说“更快”,而是回到数据入口。

高继扬把做好 VLA 的成功要素拆成数据、算法、算力/基础设施、人才。大厂在算力、基础设施和人才上强,但常常缺真实操作数据;有整机能力的创业公司则可能在数据入口上更强。尤其在中国,供应链和硬件迭代能力让创业公司更容易把整机、场景和数据采集打通。

本章小结

机器人大脑的关键不是单纯“谁的大模型更强”,而是能否形成端侧可执行的 VLA、合适的 VLM 上层拆解、真实数据闭环和整机部署能力。

许华哲的离开:算法创新与价值链壁垒

机器人大脑之后,访谈进入一个敏感但高价值的问题:联合创始人离开说明了什么?这一章不做八卦判断,而把它当成理解机器人公司壁垒排序的窗口。

访谈录制时,星海图联合创始人许华哲即将离开。主持人追问:这是否意味着现阶段机器人公司算法创新不重要?高继扬的回答很清楚:算法创新重要,但不能脱离整条具身智能价值链独立存在。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{embodied-ai-value-chain.png}
\caption{具身智能价值链与传播周期:整机、客户、数据、AI infra、算法/模型。}
\end{figure}

读图:传播周期决定短期壁垒

图中传播周期来自访谈中的判断:整机和供应链约 12--18 个月,客户渠道至少 6 个月,数据体系要在整机基础上再加 6--12 个月;而一线团队追赶算法论文或开源方法可能只需 2--3 个月。因此短期壁垒不只看算法,而要看整条链条。

算法为什么仍重要

前面用传播周期说明算法不一定是最厚壁垒,但这并不意味着算法可以忽略。更准确的理解是:算法必须嵌入更长周期的资产中,才能把创新变成壁垒。

高继扬并没有贬低算法。他强调星海图算法团队能力很强,也会持续创新。但在当下开源和论文传播速度很快的环境里,算法本身的可复制性更强;如果没有整机、数据、infra、渠道和客户价值支撑,算法创新很难形成长期防守。

务实创新

“务实创新”不是不创新,而是先判断创新在整条价值链中的 ROI:它对长期战略有多大贡献,对短期收益有多大贡献,是否能被整机、数据和客户闭环放大。

价值观与组织取舍

算法和壁垒讲完后,问题会自然落到组织:当人、方向和资源不再完全匹配,创始团队如何取舍?这也是“务实创新”真正接受考验的地方。

许华哲离开也被高继扬解释为组织阶段变化:公司在不同阶段需要不同类型的人创造价值,也需要实事求是地做调整。他把价值观定义为两类取舍:面对方向选择时选什么不选什么,面对利益分配时分给谁不分给谁。这比“谁对谁错”更接近创业组织的真实逻辑。

不要把联合创始人离开简单归因

创始团队变化可能来自方向、阶段、职责、价值观和个人创业意愿的组合。对外部观察者来说,更重要的是看调整后组织是否继续产出结果,而不是只看人事事件本身。

本章小结

许华哲离开的段落,实际上把具身智能公司的壁垒讲清楚了:算法重要,但算法必须嵌入整机、供应链、数据、infra、模型、分销和客户价值链条。

同行、融资与组织复杂度

前面几章讨论的是技术和产品链条,这一章补上创业公司的外部坐标。高继扬在访谈里多次提到同行:学习宇树的整机和供应链,学习 Physical Intelligence 的基础模型和人才密度,也观察智元等公司在管理、知识产权和组织上的动作。这种表达很有意思:他不是把同行只当竞争对手,而是把行业当成可学习系统。

向同行学习什么

本节把“学习同行”拆成更具体的能力来源:硬件公司提供供应链样本,模型公司提供智能样本,成熟管理团队提供组织样本。这样看,竞争对手也是行业知识的来源。

对宇树,他关注的是深入供应链:齿轮、电机、壳体、电磁仿真等底层能力。对 Physical Intelligence,他关注的是智能方向的领头羊位置、人才密度和资金密度。对智元,他关注的是成熟管理团队如何经营具身智能公司,包括知识产权、组织调整和实事求是的管理动作。

同行学习的三个维度

对象 可学习之处 对星海图的意义
宇树 整机、供应链、零部件自研和制造深度 补足机器人公司的物理底盘。
Physical Intelligence 基础模型、人才密度和前沿算法投入 对标机器人大脑的上游能力。
智元 管理团队、知识产权、组织调整和经营动作 学习复杂组织如何持续交付。

估值上涨不是组织问题的根源

访谈里提到,星海图两年估值大幅上涨,团队从十几人扩到两百多人。高继扬认为,真正造成组织问题的不是估值上涨本身,而是组织变复杂、任务 scope 急速扩大、原有成员和创始团队能否跟上成长速度,以及能否及时引入更有经验的人。

具身智能公司还有一个特殊组织难题:整机供应链强调流程、纪律和质量;智能团队强调人才密度、创新和快速试错。这两种 domain 的管理语言不同,节奏不同,容错方式也不同。把它们放在同一家公司里,是具身智能创业天然的组织挑战。

具身智能公司的组织双重性

一边是硬件/供应链,需要纪律、流程、质量和成本控制;一边是智能/模型,需要高密度人才、探索和快速迭代。能否同时管理这两种文化,是机器人公司能否长大的核心问题。

本章小结

星海图不是在真空中竞争。它一边从同行学习,一边处理融资、组织扩张和双 domain 管理问题。对具身智能公司而言,技术路线能否兑现,最后会落到组织能否承受复杂度。

从 Demo 到生产力:验收框架

本期反复出现一个隐含评测问题:机器人到底什么时候算可用?高继扬把能力阶段从视频 demo、办公室 demo、wild demo 一直讲到生产力场景。这个划分比单看模型指标更实用,因为机器人最终要面对的不是榜单,而是真实客户和真实任务。

四级验收

这里把访谈里的 demo 说法整理成四级验收表。表的目的不是创造新名词,而是提醒读者:机器人能力必须从“看见一次成功”走向“持续给客户创造价值”。

阶段 能证明什么 不能证明什么
Demo in Video 视觉上吸引人,证明某个动作可被拍出来 不证明稳定性、可复现性和现场适配。
Demo in Office 在公司可控环境中可现场演示 不证明跨地点、跨物体、跨客户流程可用。
Demo in the Wild 在客户/展会/跨国场景中可部署演示 不等于长期无人值守、低维护成本。
生产力场景 客户愿意持续使用并为价值付费 仍需要规模化交付、维护和数据闭环验证。

视频塑造的机器人认知偏差

普通观众对机器人的理解往往来自短视频。视频会放大成功片段,弱化失败次数、准备时间、场景限制和维护成本。因此,判断机器人公司不能只看 demo,要看周期、出货、客户复购、维护和数据回流。

客户现场是最终评测

高继扬说,客户如果评价产品不好,他会第一时间去客户现场解决,并把单个问题变成一类问题的体系化解决。这种做法对应具身智能的真实评测方式:不是离线榜单一次打分,而是在客户现场反复暴露问题、解决问题、固化流程、改进产品。

生产力场景的三重验证

一个机器人能力进入生产力场景,至少要通过三重验证:客户愿意付费,系统能稳定完成任务,问题能被维护体系和数据闭环持续吸收。

本章小结

机器人公司从 demo 走向生产力,需要跨过可复现、可部署、可维护、可付费四道门槛。真正的模型能力,要在这些门槛中被重新定义。

“到土里去”:理想主义的现实形态

访谈后半段,主持人追问技术 vision。高继扬给出的愿景是:像培训员工一样培训机器人,通过几次示范和几次自我演练,让机器人在场景里稳定自主完成任务。为了实现这个体验,星海图需要基础模型、后训练工具和整机三件套。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{go-to-soil-robotics.png}
\caption{“到土里去”:机器人创业为什么不浪漫。}
\end{figure}

读图:不浪漫不等于没有理想主义

左侧软件/大模型应用更容易集中在模型、增长和传播;右侧机器人公司必须面对整机、供应链、客户现场、维护、安全和数据回流。中间的“土里”代表真实世界摩擦。机器人创业的理想主义不是口号,而是每天处理这些摩擦后仍然坚持目标。

如何识别画饼

高继扬认为,无法在一个瞬间识别机器人公司是否画饼,需要看周期:团队一两年前说了什么,过去一年做了什么,一年后是否兑现。机器人行业里,画未来是必要的,因为员工、投资人、供应商和客户都需要相信未来;关键在于团队是否持续把未来描述变成现实。

画饼与战略叙事的区别

描述未来不是问题;问题是未来是否被拆成阶段性结果、资源配置、客户价值和可验证交付。能兑现的叙事是战略,不能兑现的叙事才是空饼。

狼:进取心与韧性

当被问到星海图像什么动物时,高继扬说最接近狼,但又强调每家公司都很狼性。这里的“狼”不是粗暴文化,而是面对客户交付和发布节点时的进取心、韧性和达成目标的劲头。具身智能行业的竞争强度,要求团队既有理想主义,又每天务实计算投入产出和长期价值。

本章小结

“到土里去”是本期最重要的产业隐喻。机器人公司必须在理想主义与务实之间找平衡:愿景要足够远,但每天都要解决硬件、供应链、客户、数据和组织问题。

术语消化:本期关键词索引

前面的章节已经覆盖个人、组织、技术和商业模式。这里集中把术语收束,方便后续和 EP121、EP109、EP098 等机器人相关笔记互相索引。

术语 一句话解释 在本期中的作用
Physical World AI AI 直接作用于真实物理任务 自动驾驶和具身智能的共同底层。
Waymo 路线 robotaxi、系统工程、长期执行 提供系统拆解与工程训练。
Momenta 路线 量产交付、客户价值、数据循环 提供产品化和组织训练。
整机 机器人本体、硬件和端侧计算入口 数据采集和客户交付的基础。
供应链 零部件、制造、质量和交付体系 传播周期长,是壁垒来源。
Data Recipe 数据采集、清洗、训练、评测和回流配方 决定真实数据如何变成能力。
VLM Vision-Language Model,用于指令拆解和上层思考 机器人大脑的上层系统。
VLA Vision-Language-Action,用视觉和语言产生动作 机器人大脑的动作基础模型。
Demo in the Wild 在开放真实场景中展示能力 比视频 demo 更接近真实泛化。
传播周期 友商复制一个能力所需时间 判断壁垒厚度的指标。
务实创新 以客户价值和 ROI 约束创新 星海图组织价值观之一。

本章小结

这些术语共同指向一个结论:具身智能的竞争不是单点算法竞争,而是长链条系统竞争。模型、整机、供应链、数据、客户和组织必须一起看。

总结与延伸

核心结论

  1. 高继扬的方法论是归纳总结、目标倒推和概率管理,这种方法从考试、论文、工程到创业一以贯之。
  2. Waymo 训练系统工程:拆解、测量、infra、长期执行;但离客户和经营较远。
  3. Momenta 训练量产交付:从 demo 到产品,从 research lab 到客户价值,组织必须被真实项目洗礼。
  4. 自动驾驶商业模式的关键是数据和客户:谁拥有车辆、用户和利润池,谁就更容易形成数据闭环。
  5. 星海图选择整机,是因为整机是数据和客户价值的入口,而不是因为硬件本身更浪漫。
  6. Data Recipe 是机器人公司把真实世界数据转成模型能力的核心机制。
  7. 机器人大脑不是单个 LLM,而是 VLM 上层拆解与 VLA 动作模型的双系统,并受端侧延迟约束。
  8. 算法创新重要,但在开源时代传播周期短;长期壁垒更可能来自整机、供应链、数据、客户和组织。
  9. “到土里去”说明机器人创业的理想主义必须以务实、ROI、交付和客户现场为形态。

开放问题

最后保留开放问题,是因为具身智能仍处在路线未收敛的阶段。本期给出了强烈的现实主义框架,但框架如何在未来几年的产品和模型中兑现,仍要继续观察。

  • 具身智能公司到底应该先做开发者市场,还是直接进入生产力场景?
  • VLA 的通用性会来自模型规模、数据规模,还是来自整机和场景闭环?
  • 有整机能力的创业公司,能否在数据上形成相对大厂的长期优势?
  • 当算法传播周期越来越短,机器人公司的护城河会不会越来越向供应链、客户和数据 recipe 转移?
  • 中国供应链优势能否系统性转化为具身智能基础模型优势?

拓展阅读

  • EP121 对 DeepMind 谭捷的访谈:机器人、跨本体、世界模型和 Gemini Robotics。
  • EP109 与谢晨聊机器人数据荒:仿真、合成数据和数据产业。
  • EP098 机器人基座模型和 VLA 经典论文讲解:理解 VLA 技术脉络。
  • 自动驾驶系统架构、端到端自动驾驶、robotaxi 商业模式相关材料。
  • 机器人供应链、端侧部署、遥操作数据和后训练工具相关资料。

最后的判断

这期最值得带走的判断是:具身智能不是从“模型很强”自然推出“机器人可用”,而是从整机、客户、数据、模型和组织共同形成闭环。真正的技术浪漫,可能不是站在云端讲未来,而是愿意把头伸进土里,把未来一点点做出来。