跳转至

Ep120 40Qpt8R2Uys

LaTeX 源码 · 备用 PDF · 观看视频

导读:一家车企为什么要从自动驾驶转向 Physical AI

本节先说明这期的核心问题。刘先明接任小鹏自动驾驶中心负责人,外界关注的是换帅;但访谈真正值得整理的,是他把自动驾驶放进 Physical AI 的框架中重新理解:车不只是交通工具,也是一个真实世界智能体;自动驾驶不只是感知、规控和地图系统,而是数据、模型、云端工厂、车端部署和量产反馈共同构成的智能闭环。

这期最锋利的判断是“Language 是毒药”。它并不是说语言没有价值,而是说在自动驾驶/物理 AI 的训练链路中,如果把传感器信号先翻译成中间语言 token,再从语言解码轨迹,就会引入人工监督、压缩瓶颈和 data scaling 障碍。刘先明的路线是不断拆掉中间层:拆激光雷达依赖、拆规控规则、拆端到端中间结构,最后连 language bottleneck 也拆掉。

本期核心命题

小鹏的 AI 转型不是“给汽车加大模型”,而是把自动驾驶重写成 Physical AI:用更大模型、更大数据、更少人工中间层和更强工程闭环,让车在真实世界中持续学习、部署和迭代。

视觉策略说明

本视频是固定访谈画面,没有 slides、白板或产品演示。正文只用封面做来源识别,正文图像全部为自制概念图,用来解释自动驾驶软件栈演化、拆掉 Language、云端模型工厂、主机厂数据闭环、组织扁平化和换帅使命。

本章小结

EP120 的主线是“简化”:技术上拆掉中间层,组织上减少层级,战略上把自动驾驶放进 Physical AI。它不是单纯人事访谈,而是一份车企 AI 转型方法论。

刘先明的路径:从 CV/ML 到 Robotaxi,再到主机厂

本章先看刘先明为什么会走到小鹏。他的路径包括 UIUC 博士、Facebook Connectivity Lab、地平线北美、Cruise Robotaxi,再到小鹏。贯穿这条线的不是“跳槽履历”,而是 mission driven 的技术选择:从卫星图像做救灾和世界人口分布,到自动驾驶减少司机疲劳和交通风险,再到主机厂里做可控数据闭环。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{liuxianming-trajectory.png}
\caption{刘先明的 Physical AI 路径:CV/ML、Facebook、Cruise、小鹏和 Physical AI。自制概念图,依据 00:02:16--00:19:00 对谈内容整理。}
\end{figure}

读图:这条路径的主线是真实世界问题

从卫星图像救灾,到 Robotaxi,再到小鹏量产车队,刘先明一直在处理“AI 如何进入真实世界”。这解释了他为什么不把自动驾驶只看作车企功能,而看作 Physical AI 的一部分。

Cruise 学到的两件事

刘先明在 Cruise 学到的两件事影响了他后续路线。第一是极致简化和大规模 Infra。Robotaxi 要从 demo 变成产品,需要 Data Infrastructure、Training Infrastructure、问题分析链路和软件发布体系。第二是 Continuous Learning Machine,即用数据迭代持续解决问题。所谓“躺在夏威夷等金币掉下来”只是玩笑,背后是数据闭环可以让系统持续变好。

Cruise 经验的迁移

从 Robotaxi 到主机厂,关键不是换一个场景,而是把“数据回流 + Infra + 快速迭代”迁到更大车队和更可控数据链路中。

为什么去主机厂

如果自动驾驶和 Physical AI 的未来依赖大规模数据、可控数据链路和快速反馈,主机厂就有天然优势。Robotaxi 公司能控制车队,但规模有限;主机厂有量产车辆、真实用户、不同城市道路和完整车端数据链路。刘先明选择小鹏,是因为他和何小鹏都在问同一个问题:下一代技术路线怎样远远甩开当前对手?

主机厂相对 Robotaxi 公司的不同优势

维度 Robotaxi 公司 主机厂
车队控制 控制运营车队,数据质量高但规模较慢 量产车规模大,覆盖城市和场景更广。
商业目标 直接提供出行服务 卖车、智驾订阅、Robotaxi 和品牌体验并行。
数据链路 运营闭环强 用户车队回流和量产问题更复杂。
风险约束 服务区和运营范围可控 面向普通用户,安全和质量责任更重。

真实世界问题带来的压力

刘先明比较了 Facebook、Cruise 和小鹏的工作压力。Facebook 的研究问题更多是技术和资源问题;Cruise 的车在路上,事故、故障和安全都是真实压力;到小鹏之后节奏更快,因为量产车企要同时处理 AI、产品、业务、质量、硬件和用户责任。这种压力解释了为什么 Physical AI 不是纯 research,而是要在真实系统中不断做取舍。

真实世界 AI 的压力来源

数字世界模型出错,通常可以回滚、重试或隐藏失败;车在路上出错,关系到安全、责任、品牌和监管。因此物理 AI 的迭代必须比纯软件更谨慎,也更依赖工程闭环。

从旧金山到广州:场景改变问题结构

刘先明提到,在旧金山做自动驾驶时,流浪者、垃圾、宠物、鸟等 corner case 很密集,让人觉得问题很难;而在广州,某些曾经难以处理的问题不是同一个量级。这个观察很重要:自动驾驶不是抽象算法题,城市道路结构、交通参与者、基础设施和人群行为都会改变问题难度。

场景不是背景,而是模型的一部分

同一套算法在不同城市会面对不同 corner case。场景选择会影响数据分布、模型训练、上线节奏和用户体验,因此 Robotaxi 和量产智驾都不能只谈模型,不谈城市和运营环境。

本章小结

刘先明的路径说明,小鹏这次换帅不只是组织任命,而是把自动驾驶经验、Robotaxi 数据闭环和主机厂量产资源重新组合。

自动驾驶软件栈:从规则到云端模型工厂

上一章讲人和组织,本章进入技术栈。刘先明把自动驾驶演进拆成几个阶段:Software 1.0 是规则和优化;Software 1.5 是模型加规则;Software 2.0 是端到端;Software 3.0 或 VLA/VLM 路线则是在更大算力和更大数据下,用更大模型做数据 scaling。最终,车端硬件无法承载全部训练和大模型,于是需要云端模型工厂。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{autonomous-stack-evolution.png}
\caption{自动驾驶软件栈演化:从规则、半模型、端到端,到更大模型和云端工厂。自制概念图,依据 00:02:16--00:19:00 对谈内容整理。}
\end{figure}

读图:每一代都在拆掉旧上限

Software 1.0 被规则和优化约束;Software 1.5 的上限仍在规控代码;Software 2.0 用端到端减少人工结构;Software 3.0/VLA/VLM 用更大模型和更多数据继续 scaling;云端工厂负责训练、蒸馏、量化、剪枝和部署。

Software 1.0 到 2.0

Software 1.0 使用激光雷达聚类、传统检测、手写规则和数学优化来做感知与规控。这一代系统可解释、工程可控,但会被规则上限卡住。Software 1.5 把模型引入感知,例如检测和分割,但规划控制仍依赖大量规则。Software 2.0 则试图让神经网络从数据中学习更完整的输入输出关系,用数据迭代代替越来越复杂的手写规则。

规则不是错,规则是阶段性上限

规则系统在早期非常重要,因为它可控、可调、可解释。但当场景复杂度超过人工规则维护能力时,规则会变成上限。拆规则不是否定工程,而是承认规模化问题需要数据驱动。

云端模型工厂

车端芯片无法直接训练超大模型,也不适合直接运行所有云端能力。因此,刘先明提出“云端工厂”思路:在云端训练巨大模型,再通过蒸馏、量化、剪枝等方式压缩能力,部署到不同车端硬件上。这个模式类似模型生产线,训练好一个云端母模型后,可以持续生成适配不同平台的车端模型。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{cloud-model-factory.png}
\caption{云端模型工厂:大模型在云端训练,再蒸馏、量化、剪枝到车端。自制概念图,依据 00:02:16--00:19:00 对谈内容整理。}
\end{figure}

读图:云端负责能力,车端负责部署

云端大模型吃大参数和大数据,训练后通过蒸馏把能力迁到小模型,再量化剪枝适配车端算力。这样既能利用 scaling,又能满足量产车硬件约束。

本章小结

自动驾驶软件栈演化的核心,是不断拆掉人工中间层,扩大数据和模型规模,再用工程体系把云端能力压缩到车端。云端模型工厂是连接大模型和量产部署的关键结构。

拆掉 Language:为什么 Language 是毒药

本章进入节目标题里的核心技术判断。很多 VLA 路线会把传感器信号先翻译成 language token,再用 language token 解码 trajectory。刘先明认为这会产生瓶颈,因为中间语言表示引入人工监督和人工语义压缩,不利于 data scaling。小鹏的做法是拆掉这个中间 language 层,让 vision 和 language 作为输入,直接解码 action。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{remove-language-bottleneck.png}
\caption{拆掉 Language Bottleneck:中间语言 token 会限制数据 scaling。自制概念图,依据 00:19:00--00:33:53 对谈内容整理。}
\end{figure}

读图:保留语言作为输入,拆掉语言作为中间瓶颈

左侧路线把传感器信号翻译成语言,再从语言解码轨迹;右侧路线让 Vision+Language 直接进入模型,Action 直接输出。这里不是不要语言,而是不要把语言当成强制中间监督信号。

语言为什么会变成瓶颈

本节先把“毒药”这个强表达拆开看。语言的问题不是语义无用,而是它一旦成为低层驾驶信号的必经中介,就会把连续世界压成离散标签。

语言是人类高层抽象,非常适合指令、解释和常识,但自动驾驶的传感器信号包含大量连续、几何、动态和细粒度信息。如果必须先翻译成语言,就会丢掉许多连续信息,并把训练过程变成人工标注或人工 refinement。对需要海量数据 scaling 的自动驾驶来说,这会限制数据使用效率。

Language 是毒药的准确含义

语言作为输入很有价值,语言作为强制中间表示可能有毒。毒性来自过度依赖人工语义、降低连续数据利用率、形成 bottleneck,并阻碍自监督或大规模数据训练。

“拆掉 L”与自监督学习

过去 AI 成功的重要经验之一,是使用数据做 unsupervised/self-supervised learning。自监督学习利用数据自身结构构造训练信号,减少人工标注依赖。自动驾驶如果要走这条路,就要尽量减少中间人工监督层,让模型从海量视觉、传感器和驾驶轨迹中直接学习。

不要把“拆掉语言”理解成“不要语言能力”

自动驾驶仍需要理解导航指令、交通语义和人类意图。拆掉的是中间瓶颈,不是人机交互里的语言输入,也不是模型中的语义理解。

本章小结

“Language 是毒药”是对中间表示的警惕。物理 AI 要充分利用连续传感器数据,语言不能成为所有信息的窄口。更直接的 VLA/Action decoding,是为了提升数据使用效率和 scaling 能力。

拆 L 与 Software 3.0:不是换名词,而是换数据路径

前面分别讲了软件栈演化和拆 Language,本章把两者放在一起看。刘先明反复提醒,很多新名词本质上做的是类似事情:更大模型、更大数据、更少人工规则、更直接地从输入到动作。所谓 Software 3.0、VLA、VLM、端到端,并不是为了制造概念,而是在寻找更可 scaling 的数据路径。

为什么中间结构会反复出现

本节解释一个工程悖论:中间结构往往是为了解决可控性而加入的,但系统复杂到一定程度后,它们又会反过来限制学习系统的上限。

自动驾驶系统里,中间结构很诱人:感知结果、车道线、目标框、轨迹候选、go point、meta action、language token。它们让系统更可解释、更容易 debug,也更符合传统工程分工。但每增加一个中间结构,就可能增加一个人工设计瓶颈:数据被压缩成某种人为格式,模型只能在这个格式内学习。

中间结构的利弊

维度 好处 代价
可解释性 人能看懂模块输出,便于定位问题 可能牺牲原始连续信息。
工程分工 感知、预测、规控可分团队推进 模块接口成为系统上限。
安全上线 更容易做规则保护和人工兜底 规则越多,数据 scaling 越慢。
数据利用 中间标签可以做监督学习 人工标签会限制规模和表达力。

拆 L 的真正目标:让数据自己说话

接下来回到小鹏的选择:拆 L 不是为了显得激进,而是为了让更大规模、更原始、更连续的数据进入训练链路。

拆掉 Language Bottleneck 的目标,不是让系统更神秘,而是让传感器、驾驶轨迹和动作反馈能以更少人工变换进入训练。语言可以用于指令和高层语义,但如果每个低层动作都要经过语言 token,它就会把连续世界离散化,阻碍自监督学习和大规模数据利用。

Software 3.0 的最小定义

在本讲义中,Software 3.0 指用大模型、大数据、自监督信号和云端模型工厂,把物理世界任务从人工规则系统推进到可持续 scaling 的学习系统。

本章小结

Software 3.0 的关键不是术语,而是数据路径更短。越少人工中间层,越有机会让模型直接从真实数据中学习;但越少中间层,也越需要更强评测、安全和工程治理。

小鹏 Physical AI 转型:主机厂数据闭环与 Robotaxi 目标

前面讲技术栈和拆 Language,本章看小鹏为什么把自动驾驶上升为 Physical AI。刘先明说“小鹏本质上是一家 AI 企业”。这句话的含义不是营销口号,而是:车是物理世界中最大规模、最可控、最有商业闭环的智能体之一;主机厂拥有真实用户、真实道路、真实反馈和可控硬件链路。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.90\textwidth]{physical-ai-strategy.png}
\caption{小鹏 Physical AI 转型:从自动驾驶能力走向物理世界智能。自制概念图,依据 00:33:53--00:54:30 对谈内容整理。}
\end{figure}

读图:车是 Physical AI 的最大本体之一

图中 Physical AI 不只包括模型,还包括车、数据、Robotaxi、组织和量产。小鹏的优势不只是算法,而是主机厂能把真实车队数据和量产反馈接进模型迭代。

主机厂的数据优势

主机厂最大的优势是可控数据链路。车队在真实城市运行,产生传感器数据、驾驶决策、用户反馈、异常 corner case、接管和问题工单。只要数据回流和训练基础设施足够好,主机厂可以形成“真实世界数据 -> 云端训练 -> 车端部署 -> 真实反馈”的闭环。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{data-infra-loop-xpeng.png}
\caption{数据与 Infra 闭环:主机厂优势在可控数据链路和量产反馈。自制概念图,依据 00:02:16--00:19:00 与 00:33:53--00:54:30 对谈内容整理。}
\end{figure}

读图:数据闭环不是“有车就行”

车队只是数据入口;真正的闭环还需要 corner case 挖掘、训练/分析 infra、模型更新、车端部署和量产验证。没有这套体系,数据不会自动变成能力。

Robotaxi 作为阶段性里程碑

刘先明提到希望未来一到三年在广州把 Robotaxi 运行得很好。这个目标的意义,是把技术争论转成真实服务:它不再是新闻热点、玩具或景点,而是用户每天出门默认会用的一部分。Waymo 在旧金山从景点变成生活服务,是他很在意的参照。

从景点到生活服务

刘先明带孩子在旧金山坐 Waymo 时,孩子会把它叫作 Robot Car。早期很多人去旧金山只是为了尝鲜;但当它开始承担大量日常订单,从 Caltrain Station 出来就有人等车时,它就不再只是技术展示,而是城市生活的一部分。小鹏的 Robotaxi 目标,也需要越过这个心智门槛。

Physical AI 为什么不只是自动驾驶

本节把 Robotaxi 目标放回更大的 Physical AI。自动驾驶是物理 AI 中最成熟、数据最多、商业闭环最清晰的场景之一,但它不是终点。车端系统已经包含感知、预测、规划、控制、用户交互、地图、云端训练和安全机制;这些模块未来会迁移到更多物理智能体上。小鹏若能在车这个本体上证明 scaling,就有机会把同一套方法论延伸到更广的物理世界任务。

车是 Physical AI 的训练场

车是高价值、高频、真实世界约束强的智能体。它让 AI 不只在屏幕里回答问题,而是在道路、交通和安全责任中学习行动。

本章小结

小鹏 Physical AI 转型的关键,是把自动驾驶放进真实世界智能闭环:主机厂数据、云端训练、车端部署、Robotaxi 验证和组织执行共同构成新的战略。

简单即美:拆掉中间层,也拆掉组织层级

前面讲的是技术层面的拆,本章转到组织层面的拆。刘先明的“简单即美”不是审美口号,而是工程管理原则:复杂系统要想迭代快,就必须减少不必要的中间层。

本章从技术上的“拆”转向组织上的“简化”。刘先明说自己喜欢简单,上任后最重要的决策就是简化流程、简化研发工序、合并重复事项、降低不必要事项优先级。他不喜欢只听汇报,而是直接看前线问题、代码和实验结果。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{simple-is-beautiful.png}
\caption{简单即美:不断拆掉浓郁中间层,让数据直接训练能力。自制概念图,依据 00:00:00--00:02:16 与 00:54:30--01:48:46 对谈内容整理。}
\end{figure}

读图:技术简化和组织简化是同一件事

拆激光雷达依赖、拆规控规则、拆中间层、拆 Language,都是为了减少瓶颈;组织上减少层级、直接看问题、合并重复工作,也是为了减少信息瓶颈。

扁平工程组织

在物理 AI 和量产结合的场景里,决策速度很重要。刘先明希望层级被拍平,一线 engineer 能直接暴露问题,团队 lead 也能直接写代码、看实验、做 deep dive。组织内部不设置太多部门墙,避免 duplicate work,通过共享实验和失败来提高整体速度。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{org-flat-engineering.png}
\caption{扁平工程组织:前沿 AI 与量产结合,需要一线问题快速决策。自制概念图,依据 00:54:30--01:48:46 对谈内容整理。}
\end{figure}

读图:扁平不是无管理,而是短链路

一线工程师暴露代码和实验,负责人直接看问题,deep dive 复盘好坏实验,资源整合减少重复,最终支持模型超越规则后的快速切换。

工程文化:Deep Dive、共享失败和减少重复

本节把“扁平”进一步落成日常机制。没有 deep dive 和失败共享,扁平组织很容易只是少几层汇报线,而不是真正提高学习速度。

访谈中提到团队会做 deep dive,把好的实验、坏的实验、最近看到的东西、自己做挂的东西拿出来分享。这个做法服务于两个目标:一是让团队快速形成共同上下文,二是避免不同小组重复造轮子。Physical AI 的研发需要大量实验,如果失败不能共享,组织会反复踩同一个坑。

工程组织的知识复用

前沿 AI 团队的核心资产不只是模型权重,还包括失败实验、调参经验、数据处理方法和对问题的共同理解。Deep Dive 是把这些隐性知识显性化。

切换时机:机会与风险

接下来讨论简化最危险的一步:什么时候可以把旧路线切掉。对车企来说,这不是研究组内部开关,而是直接影响用户安全和量产质量的决策。

车企不能因为技术酷就上线。模型要真正替代规则,需要等到某个时间点:模型性能明显超过规则,坏处可控,好处明显,安全责任和量产质量能承受。刘先明提到测试员鼓掌的时刻,就是模型超越旧规则的一种组织信号。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{ai-transition-risk-balance.png}
\caption{切换时机:机会 vs 风险。车企必须等模型超过规则,而不是只因技术酷就上线。}
\end{figure}

技术路线切换不能靠信仰硬推

在车企里,技术路线切换必须对安全、质量和用户负责。正确做法不是“模型很酷所以全量上线”,而是让模型在关键指标上超过旧系统,并逐步扩大部署。

本章小结

小鹏这次转型同时发生在技术和组织两层:技术上拆掉中间层,组织上缩短信息链路。两者都服务于同一个目标:让数据和真实问题更快进入模型迭代。

量产视角:技术、质量、成本和责任要一起算

前面讲了技术路线和组织简化,本章补上量产视角。刘先明多次强调,他更喜欢从真实问题里找下一阶段要做的事情。自动驾驶负责人不只是研究负责人,还要面对产品、业务、质量、硬件、成本和用户安全。这个视角解释了为什么车企不能简单照搬研究团队的节奏。

量产不是研究的尾声,而是问题来源

研究团队常常先定义任务,再找数据和模型;量产团队面对的是真实用户每天遇到的问题。车在路上出现的每个接管、每个不舒适动作、每个误判、每个用户投诉,都会变成下一轮模型和工程要解决的问题。量产不是研究结束后的部署环节,而是持续产生研究问题的入口。

量产问题如何反哺模型

量产信号 进入模型前要做什么 反哺价值
接管 定位接管原因、切出片段、标注上下文 找到模型盲区和规则上限。
用户不适 关联驾驶动作、速度、车距和环境 优化舒适性和风格。
事故/风险 做责任归因、复盘感知/预测/规划链路 形成安全样本和评测集。
硬件约束 记录算力、传感器、延迟和成本限制 指导蒸馏、量化和剪枝。

为什么“简单即美”不是粗暴删除

简单不是把所有保护都删掉,而是把重复、过时、阻碍 scaling 的结构删掉。车企仍然必须保留安全冗余、质量验证和上线流程。刘先明强调的简单,是让研发工序更短、目标更少、问题暴露更快,而不是牺牲安全边界。

简化不等于冒进

如果为了追求端到端而忽略安全、测试和量产质量,简化会变成冒进。真正的简化,是减少无效复杂度,同时保留必要安全约束。

本章小结

Physical AI 的量产路线要求技术和责任一起前进。模型要更大、数据要更多,但上线必须经受安全、质量、成本和用户体验检验。

换帅背后:不同阶段的历史使命

前面讲技术和组织,本章回到换帅。小鹏自动驾驶经历多任负责人:谷俊丽、吴新宙、李力耘、刘先明。刘先明没有直接定义每个人的历史使命,但可以从技术阶段看:早期需要探索和搭建能力,中期需要规则/量产体系,之后需要端到端转型,而现在进入 Physical AI 和更大模型/数据 scaling 阶段。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{leader-mission-stages.png}
\caption{小鹏智驾负责人使命:不同阶段对应不同技术路线和组织任务。自制概念图,依据 00:54:30--01:48:46 对谈内容整理。}
\end{figure}

读图:换帅不是孤立人事,而是阶段变化

每一任负责人面对的主问题不同:早期探索、规则量产、端到端转型、Physical AI 和下一阶段生活服务化。组织换帅往往伴随技术栈和公司战略变化。

何小鹏的角色

刘先明描述何小鹏是坦诚、技术宅、问题很 sharp 的老板。他们最初聊的不是普通面试,而是“下一代怎样甩开对手”。在技术规划上,何小鹏会在机会与风险之间动态平衡;当模型性能和机会足够清晰时,他会调整判断。这个过程不是靠“说服老板”,而是靠把事情做出来,让技术涌现改变决策。

技术涌现改变决策

在高不确定技术路线里,最有说服力的不是口头争论,而是模型性能突然跨过某个阈值。组织应该保留足够空间,让正确技术在指标和体验上自然显现。

预算、风险和 CEO 的问题

何小鹏会问非常直接的问题,例如“为什么花这么多钱”。这个问题不是简单压预算,而是在逼团队说明:更大模型、更大数据、更大 infra 的投入,如何变成可部署能力、用户体验和商业结果。Physical AI 的 scaling 很贵,CEO 的角色不是只批准预算,而是持续追问机会、风险和时间窗口。

Scaling 不是免费午餐

更大模型和更多数据会带来能力,但也会带来训练成本、车端部署成本、组织复杂度和质量风险。车企必须把技术路线和财务、量产、安全一起算。

Meta 与 Google 的组织启发

刘先明提到 Meta 的半年节奏和 reorg 文化适合互联网快速试错,但 AI 时代很多事情需要从头建体系,半年一次的大调整未必友好。Google 在 Larry Page / Sergey Brin 回归后也发生变化。这个比较说明,公司文化会影响长线 AI 项目:如果考核周期太短,团队可能很难做需要一年以上才能验证的底层系统。

AI 时代的组织时间尺度

互联网产品可以高频试错、快速砍掉;Physical AI 和大模型基础设施往往需要长周期验证。组织如果只接受短周期收益,就会伤害底层能力建设。

未来一到五年

刘先明对一年、三年、五年的判断很有层次:一年后,智能化会更全面地接触生活,可能仍以数字 AI 为主;三年后,物理 AI 可能真正进入生活;五年后难以预测,因为世界发展太快。对个人和组织来说,能做的是持续学习,识别思维惯性,把当前认知下最正确的事情做好。

本章小结

换帅背后,是小鹏智驾从规则、端到端走向 Physical AI 的阶段切换。领导者的任务不只是管理团队,而是用工程和组织让正确技术路线跑出来。

术语消化:本期关键词索引

术语 一句话解释 在本期中的作用
Physical AI 物理世界中的 AI,能感知、决策并执行动作 小鹏从自动驾驶升级到 AI 战略的核心框架。
Robotaxi 自动驾驶出租车服务 刘先明希望在广州跑好的阶段性目标。
Software 1.0 规则、优化和手写逻辑主导的软件栈 早期自动驾驶路线。
Software 2.0 神经网络和数据驱动的软件栈 端到端自动驾驶的基础概念。
VLM Vision-Language Model,视觉语言模型 理解视觉和语言,但不一定直接输出 action。
VLA Vision-Language-Action,视觉语言动作模型 小鹏 Physical AI 技术栈的重要方向。
Language Bottleneck 把连续传感器信息压成语言 token 的中间瓶颈 刘先明主张拆掉的关键中间层。
Self-supervised Learning 自监督学习,用数据自身构造训练信号 支撑大规模数据利用,减少人工标注依赖。
Scaling 通过更大模型、更多数据、更多算力提升能力 刘先明认为 Physical AI 的关键 bet。
云端模型工厂 云端训练大模型,再压缩部署到车端 连接 scaling 和车端量产的工程结构。
蒸馏 用大模型训练小模型,让小模型继承能力 云端到车端部署的重要手段。
量化/剪枝 降低模型精度或裁剪参数以适配硬件 车端部署和成本控制需要。
Infra 数据、训练、分析和部署基础设施 Cruise 和小鹏路线共同强调的底座。
Corner Case 长尾边界场景 自动驾驶数据闭环要持续挖掘的对象。

本章小结

本期术语围绕一个问题展开:如何把自动驾驶从规则工程升级为可 scaling 的 Physical AI 系统。关键词不是孤立名词,而是训练、压缩、部署和量产反馈的一条链。

总结与延伸

核心结论

  1. 小鹏转向 Physical AI,不是给车加大模型,而是重写自动驾驶的数据和模型闭环。
  2. 刘先明的路径说明,真实世界问题和使命感会持续牵引技术选择。
  3. 自动驾驶软件栈从规则、半模型、端到端,走向更大模型和云端工厂。
  4. “Language 是毒药”的准确含义,是语言作为中间监督瓶颈会限制 data scaling。
  5. 拆掉中间层的目标,是让连续传感器数据和动作输出更直接地进入训练。
  6. 主机厂优势在真实车队、可控数据链路和量产反馈。
  7. 云端模型工厂负责训练大模型,再蒸馏、量化、剪枝到车端部署。
  8. 技术简化和组织扁平化是同一件事:都在减少瓶颈。
  9. 换帅背后是技术阶段切换,刘先明的任务是把 Physical AI 路线跑成生活服务。
  10. 未来关键 bet 是 Physical AI 中的 scaling,以及持续识别自己的思维误区。

开放问题

最后保留开放问题,是因为小鹏这条路线仍在高速展开。真正要观察的,不只是“拆掉了什么”,还包括拆掉之后系统是否更稳、更可控、更能 scale。

  • 拆掉 Language 后,模型如何保留足够高层语义和可解释性?
  • 云端大模型到车端模型的蒸馏,会不会成为体验上限?
  • 主机厂数据闭环能否追上 Robotaxi 专用车队的高质量闭环?
  • Robotaxi 在广州跑好,距离全国规模化还有哪些非技术阻力?
  • 扁平工程组织在规模化量产和质量体系中能保持多久?
  • Physical AI 的 scaling 会先在车上验证,还是在机器人/其他本体上验证?

拓展阅读

  • EP121 谭杰访谈:机器人、世界模型、跨本体和 Gemini Robotics 1.5。
  • EP132 高继扬访谈:Waymo、Momenta 和星海图的具身智能生产化。
  • EP134 数据综述:Data Recipe、机器人数据和数据定价。
  • Software 2.0、VLA、VLM、自监督学习和模型蒸馏相关资料。

最后的判断

EP120 最值得保留的不是一句“拆掉 L”,而是一套工程哲学:当中间层成为数据 scaling 的瓶颈,就要拆;当组织层级成为问题反馈的瓶颈,也要拆。Physical AI 的进步,来自更直接的数据、更大的模型、更短的工程链路和更坚决的量产验证。