Ep120 40Qpt8R2Uys
导读:一家车企为什么要从自动驾驶转向 Physical AI
本节先说明这期的核心问题。刘先明接任小鹏自动驾驶中心负责人,外界关注的是换帅;但访谈真正值得整理的,是他把自动驾驶放进 Physical AI 的框架中重新理解:车不只是交通工具,也是一个真实世界智能体;自动驾驶不只是感知、规控和地图系统,而是数据、模型、云端工厂、车端部署和量产反馈共同构成的智能闭环。
这期最锋利的判断是“Language 是毒药”。它并不是说语言没有价值,而是说在自动驾驶/物理 AI 的训练链路中,如果把传感器信号先翻译成中间语言 token,再从语言解码轨迹,就会引入人工监督、压缩瓶颈和 data scaling 障碍。刘先明的路线是不断拆掉中间层:拆激光雷达依赖、拆规控规则、拆端到端中间结构,最后连 language bottleneck 也拆掉。
本期核心命题
小鹏的 AI 转型不是“给汽车加大模型”,而是把自动驾驶重写成 Physical AI:用更大模型、更大数据、更少人工中间层和更强工程闭环,让车在真实世界中持续学习、部署和迭代。
视觉策略说明
本视频是固定访谈画面,没有 slides、白板或产品演示。正文只用封面做来源识别,正文图像全部为自制概念图,用来解释自动驾驶软件栈演化、拆掉 Language、云端模型工厂、主机厂数据闭环、组织扁平化和换帅使命。
本章小结
EP120 的主线是“简化”:技术上拆掉中间层,组织上减少层级,战略上把自动驾驶放进 Physical AI。它不是单纯人事访谈,而是一份车企 AI 转型方法论。
刘先明的路径:从 CV/ML 到 Robotaxi,再到主机厂
本章先看刘先明为什么会走到小鹏。他的路径包括 UIUC 博士、Facebook Connectivity Lab、地平线北美、Cruise Robotaxi,再到小鹏。贯穿这条线的不是“跳槽履历”,而是 mission driven 的技术选择:从卫星图像做救灾和世界人口分布,到自动驾驶减少司机疲劳和交通风险,再到主机厂里做可控数据闭环。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{liuxianming-trajectory.png}
\caption{刘先明的 Physical AI 路径:CV/ML、Facebook、Cruise、小鹏和 Physical AI。自制概念图,依据 00:02:16--00:19:00 对谈内容整理。}
\end{figure}
读图:这条路径的主线是真实世界问题
从卫星图像救灾,到 Robotaxi,再到小鹏量产车队,刘先明一直在处理“AI 如何进入真实世界”。这解释了他为什么不把自动驾驶只看作车企功能,而看作 Physical AI 的一部分。
Cruise 学到的两件事
刘先明在 Cruise 学到的两件事影响了他后续路线。第一是极致简化和大规模 Infra。Robotaxi 要从 demo 变成产品,需要 Data Infrastructure、Training Infrastructure、问题分析链路和软件发布体系。第二是 Continuous Learning Machine,即用数据迭代持续解决问题。所谓“躺在夏威夷等金币掉下来”只是玩笑,背后是数据闭环可以让系统持续变好。
Cruise 经验的迁移
从 Robotaxi 到主机厂,关键不是换一个场景,而是把“数据回流 + Infra + 快速迭代”迁到更大车队和更可控数据链路中。
为什么去主机厂
如果自动驾驶和 Physical AI 的未来依赖大规模数据、可控数据链路和快速反馈,主机厂就有天然优势。Robotaxi 公司能控制车队,但规模有限;主机厂有量产车辆、真实用户、不同城市道路和完整车端数据链路。刘先明选择小鹏,是因为他和何小鹏都在问同一个问题:下一代技术路线怎样远远甩开当前对手?
主机厂相对 Robotaxi 公司的不同优势
| 维度 | Robotaxi 公司 | 主机厂 |
|---|---|---|
| 车队控制 | 控制运营车队,数据质量高但规模较慢 | 量产车规模大,覆盖城市和场景更广。 |
| 商业目标 | 直接提供出行服务 | 卖车、智驾订阅、Robotaxi 和品牌体验并行。 |
| 数据链路 | 运营闭环强 | 用户车队回流和量产问题更复杂。 |
| 风险约束 | 服务区和运营范围可控 | 面向普通用户,安全和质量责任更重。 |
真实世界问题带来的压力
刘先明比较了 Facebook、Cruise 和小鹏的工作压力。Facebook 的研究问题更多是技术和资源问题;Cruise 的车在路上,事故、故障和安全都是真实压力;到小鹏之后节奏更快,因为量产车企要同时处理 AI、产品、业务、质量、硬件和用户责任。这种压力解释了为什么 Physical AI 不是纯 research,而是要在真实系统中不断做取舍。
真实世界 AI 的压力来源
数字世界模型出错,通常可以回滚、重试或隐藏失败;车在路上出错,关系到安全、责任、品牌和监管。因此物理 AI 的迭代必须比纯软件更谨慎,也更依赖工程闭环。
从旧金山到广州:场景改变问题结构
刘先明提到,在旧金山做自动驾驶时,流浪者、垃圾、宠物、鸟等 corner case 很密集,让人觉得问题很难;而在广州,某些曾经难以处理的问题不是同一个量级。这个观察很重要:自动驾驶不是抽象算法题,城市道路结构、交通参与者、基础设施和人群行为都会改变问题难度。
场景不是背景,而是模型的一部分
同一套算法在不同城市会面对不同 corner case。场景选择会影响数据分布、模型训练、上线节奏和用户体验,因此 Robotaxi 和量产智驾都不能只谈模型,不谈城市和运营环境。
本章小结
刘先明的路径说明,小鹏这次换帅不只是组织任命,而是把自动驾驶经验、Robotaxi 数据闭环和主机厂量产资源重新组合。
自动驾驶软件栈:从规则到云端模型工厂
上一章讲人和组织,本章进入技术栈。刘先明把自动驾驶演进拆成几个阶段:Software 1.0 是规则和优化;Software 1.5 是模型加规则;Software 2.0 是端到端;Software 3.0 或 VLA/VLM 路线则是在更大算力和更大数据下,用更大模型做数据 scaling。最终,车端硬件无法承载全部训练和大模型,于是需要云端模型工厂。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{autonomous-stack-evolution.png}
\caption{自动驾驶软件栈演化:从规则、半模型、端到端,到更大模型和云端工厂。自制概念图,依据 00:02:16--00:19:00 对谈内容整理。}
\end{figure}
读图:每一代都在拆掉旧上限
Software 1.0 被规则和优化约束;Software 1.5 的上限仍在规控代码;Software 2.0 用端到端减少人工结构;Software 3.0/VLA/VLM 用更大模型和更多数据继续 scaling;云端工厂负责训练、蒸馏、量化、剪枝和部署。
Software 1.0 到 2.0
Software 1.0 使用激光雷达聚类、传统检测、手写规则和数学优化来做感知与规控。这一代系统可解释、工程可控,但会被规则上限卡住。Software 1.5 把模型引入感知,例如检测和分割,但规划控制仍依赖大量规则。Software 2.0 则试图让神经网络从数据中学习更完整的输入输出关系,用数据迭代代替越来越复杂的手写规则。
规则不是错,规则是阶段性上限
规则系统在早期非常重要,因为它可控、可调、可解释。但当场景复杂度超过人工规则维护能力时,规则会变成上限。拆规则不是否定工程,而是承认规模化问题需要数据驱动。
云端模型工厂
车端芯片无法直接训练超大模型,也不适合直接运行所有云端能力。因此,刘先明提出“云端工厂”思路:在云端训练巨大模型,再通过蒸馏、量化、剪枝等方式压缩能力,部署到不同车端硬件上。这个模式类似模型生产线,训练好一个云端母模型后,可以持续生成适配不同平台的车端模型。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{cloud-model-factory.png}
\caption{云端模型工厂:大模型在云端训练,再蒸馏、量化、剪枝到车端。自制概念图,依据 00:02:16--00:19:00 对谈内容整理。}
\end{figure}
读图:云端负责能力,车端负责部署
云端大模型吃大参数和大数据,训练后通过蒸馏把能力迁到小模型,再量化剪枝适配车端算力。这样既能利用 scaling,又能满足量产车硬件约束。
本章小结
自动驾驶软件栈演化的核心,是不断拆掉人工中间层,扩大数据和模型规模,再用工程体系把云端能力压缩到车端。云端模型工厂是连接大模型和量产部署的关键结构。
拆掉 Language:为什么 Language 是毒药
本章进入节目标题里的核心技术判断。很多 VLA 路线会把传感器信号先翻译成 language token,再用 language token 解码 trajectory。刘先明认为这会产生瓶颈,因为中间语言表示引入人工监督和人工语义压缩,不利于 data scaling。小鹏的做法是拆掉这个中间 language 层,让 vision 和 language 作为输入,直接解码 action。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{remove-language-bottleneck.png}
\caption{拆掉 Language Bottleneck:中间语言 token 会限制数据 scaling。自制概念图,依据 00:19:00--00:33:53 对谈内容整理。}
\end{figure}
读图:保留语言作为输入,拆掉语言作为中间瓶颈
左侧路线把传感器信号翻译成语言,再从语言解码轨迹;右侧路线让 Vision+Language 直接进入模型,Action 直接输出。这里不是不要语言,而是不要把语言当成强制中间监督信号。
语言为什么会变成瓶颈
本节先把“毒药”这个强表达拆开看。语言的问题不是语义无用,而是它一旦成为低层驾驶信号的必经中介,就会把连续世界压成离散标签。
语言是人类高层抽象,非常适合指令、解释和常识,但自动驾驶的传感器信号包含大量连续、几何、动态和细粒度信息。如果必须先翻译成语言,就会丢掉许多连续信息,并把训练过程变成人工标注或人工 refinement。对需要海量数据 scaling 的自动驾驶来说,这会限制数据使用效率。
Language 是毒药的准确含义
语言作为输入很有价值,语言作为强制中间表示可能有毒。毒性来自过度依赖人工语义、降低连续数据利用率、形成 bottleneck,并阻碍自监督或大规模数据训练。
“拆掉 L”与自监督学习
过去 AI 成功的重要经验之一,是使用数据做 unsupervised/self-supervised learning。自监督学习利用数据自身结构构造训练信号,减少人工标注依赖。自动驾驶如果要走这条路,就要尽量减少中间人工监督层,让模型从海量视觉、传感器和驾驶轨迹中直接学习。
不要把“拆掉语言”理解成“不要语言能力”
自动驾驶仍需要理解导航指令、交通语义和人类意图。拆掉的是中间瓶颈,不是人机交互里的语言输入,也不是模型中的语义理解。
本章小结
“Language 是毒药”是对中间表示的警惕。物理 AI 要充分利用连续传感器数据,语言不能成为所有信息的窄口。更直接的 VLA/Action decoding,是为了提升数据使用效率和 scaling 能力。
拆 L 与 Software 3.0:不是换名词,而是换数据路径
前面分别讲了软件栈演化和拆 Language,本章把两者放在一起看。刘先明反复提醒,很多新名词本质上做的是类似事情:更大模型、更大数据、更少人工规则、更直接地从输入到动作。所谓 Software 3.0、VLA、VLM、端到端,并不是为了制造概念,而是在寻找更可 scaling 的数据路径。
为什么中间结构会反复出现
本节解释一个工程悖论:中间结构往往是为了解决可控性而加入的,但系统复杂到一定程度后,它们又会反过来限制学习系统的上限。
自动驾驶系统里,中间结构很诱人:感知结果、车道线、目标框、轨迹候选、go point、meta action、language token。它们让系统更可解释、更容易 debug,也更符合传统工程分工。但每增加一个中间结构,就可能增加一个人工设计瓶颈:数据被压缩成某种人为格式,模型只能在这个格式内学习。
中间结构的利弊
| 维度 | 好处 | 代价 |
|---|---|---|
| 可解释性 | 人能看懂模块输出,便于定位问题 | 可能牺牲原始连续信息。 |
| 工程分工 | 感知、预测、规控可分团队推进 | 模块接口成为系统上限。 |
| 安全上线 | 更容易做规则保护和人工兜底 | 规则越多,数据 scaling 越慢。 |
| 数据利用 | 中间标签可以做监督学习 | 人工标签会限制规模和表达力。 |
拆 L 的真正目标:让数据自己说话
接下来回到小鹏的选择:拆 L 不是为了显得激进,而是为了让更大规模、更原始、更连续的数据进入训练链路。
拆掉 Language Bottleneck 的目标,不是让系统更神秘,而是让传感器、驾驶轨迹和动作反馈能以更少人工变换进入训练。语言可以用于指令和高层语义,但如果每个低层动作都要经过语言 token,它就会把连续世界离散化,阻碍自监督学习和大规模数据利用。
Software 3.0 的最小定义
在本讲义中,Software 3.0 指用大模型、大数据、自监督信号和云端模型工厂,把物理世界任务从人工规则系统推进到可持续 scaling 的学习系统。
本章小结
Software 3.0 的关键不是术语,而是数据路径更短。越少人工中间层,越有机会让模型直接从真实数据中学习;但越少中间层,也越需要更强评测、安全和工程治理。
小鹏 Physical AI 转型:主机厂数据闭环与 Robotaxi 目标
前面讲技术栈和拆 Language,本章看小鹏为什么把自动驾驶上升为 Physical AI。刘先明说“小鹏本质上是一家 AI 企业”。这句话的含义不是营销口号,而是:车是物理世界中最大规模、最可控、最有商业闭环的智能体之一;主机厂拥有真实用户、真实道路、真实反馈和可控硬件链路。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.90\textwidth]{physical-ai-strategy.png}
\caption{小鹏 Physical AI 转型:从自动驾驶能力走向物理世界智能。自制概念图,依据 00:33:53--00:54:30 对谈内容整理。}
\end{figure}
读图:车是 Physical AI 的最大本体之一
图中 Physical AI 不只包括模型,还包括车、数据、Robotaxi、组织和量产。小鹏的优势不只是算法,而是主机厂能把真实车队数据和量产反馈接进模型迭代。
主机厂的数据优势
主机厂最大的优势是可控数据链路。车队在真实城市运行,产生传感器数据、驾驶决策、用户反馈、异常 corner case、接管和问题工单。只要数据回流和训练基础设施足够好,主机厂可以形成“真实世界数据 -> 云端训练 -> 车端部署 -> 真实反馈”的闭环。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{data-infra-loop-xpeng.png}
\caption{数据与 Infra 闭环:主机厂优势在可控数据链路和量产反馈。自制概念图,依据 00:02:16--00:19:00 与 00:33:53--00:54:30 对谈内容整理。}
\end{figure}
读图:数据闭环不是“有车就行”
车队只是数据入口;真正的闭环还需要 corner case 挖掘、训练/分析 infra、模型更新、车端部署和量产验证。没有这套体系,数据不会自动变成能力。
Robotaxi 作为阶段性里程碑
刘先明提到希望未来一到三年在广州把 Robotaxi 运行得很好。这个目标的意义,是把技术争论转成真实服务:它不再是新闻热点、玩具或景点,而是用户每天出门默认会用的一部分。Waymo 在旧金山从景点变成生活服务,是他很在意的参照。
从景点到生活服务
刘先明带孩子在旧金山坐 Waymo 时,孩子会把它叫作 Robot Car。早期很多人去旧金山只是为了尝鲜;但当它开始承担大量日常订单,从 Caltrain Station 出来就有人等车时,它就不再只是技术展示,而是城市生活的一部分。小鹏的 Robotaxi 目标,也需要越过这个心智门槛。
Physical AI 为什么不只是自动驾驶
本节把 Robotaxi 目标放回更大的 Physical AI。自动驾驶是物理 AI 中最成熟、数据最多、商业闭环最清晰的场景之一,但它不是终点。车端系统已经包含感知、预测、规划、控制、用户交互、地图、云端训练和安全机制;这些模块未来会迁移到更多物理智能体上。小鹏若能在车这个本体上证明 scaling,就有机会把同一套方法论延伸到更广的物理世界任务。
车是 Physical AI 的训练场
车是高价值、高频、真实世界约束强的智能体。它让 AI 不只在屏幕里回答问题,而是在道路、交通和安全责任中学习行动。
本章小结
小鹏 Physical AI 转型的关键,是把自动驾驶放进真实世界智能闭环:主机厂数据、云端训练、车端部署、Robotaxi 验证和组织执行共同构成新的战略。
简单即美:拆掉中间层,也拆掉组织层级
前面讲的是技术层面的拆,本章转到组织层面的拆。刘先明的“简单即美”不是审美口号,而是工程管理原则:复杂系统要想迭代快,就必须减少不必要的中间层。
本章从技术上的“拆”转向组织上的“简化”。刘先明说自己喜欢简单,上任后最重要的决策就是简化流程、简化研发工序、合并重复事项、降低不必要事项优先级。他不喜欢只听汇报,而是直接看前线问题、代码和实验结果。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{simple-is-beautiful.png}
\caption{简单即美:不断拆掉浓郁中间层,让数据直接训练能力。自制概念图,依据 00:00:00--00:02:16 与 00:54:30--01:48:46 对谈内容整理。}
\end{figure}
读图:技术简化和组织简化是同一件事
拆激光雷达依赖、拆规控规则、拆中间层、拆 Language,都是为了减少瓶颈;组织上减少层级、直接看问题、合并重复工作,也是为了减少信息瓶颈。
扁平工程组织
在物理 AI 和量产结合的场景里,决策速度很重要。刘先明希望层级被拍平,一线 engineer 能直接暴露问题,团队 lead 也能直接写代码、看实验、做 deep dive。组织内部不设置太多部门墙,避免 duplicate work,通过共享实验和失败来提高整体速度。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{org-flat-engineering.png}
\caption{扁平工程组织:前沿 AI 与量产结合,需要一线问题快速决策。自制概念图,依据 00:54:30--01:48:46 对谈内容整理。}
\end{figure}
读图:扁平不是无管理,而是短链路
一线工程师暴露代码和实验,负责人直接看问题,deep dive 复盘好坏实验,资源整合减少重复,最终支持模型超越规则后的快速切换。
工程文化:Deep Dive、共享失败和减少重复
本节把“扁平”进一步落成日常机制。没有 deep dive 和失败共享,扁平组织很容易只是少几层汇报线,而不是真正提高学习速度。
访谈中提到团队会做 deep dive,把好的实验、坏的实验、最近看到的东西、自己做挂的东西拿出来分享。这个做法服务于两个目标:一是让团队快速形成共同上下文,二是避免不同小组重复造轮子。Physical AI 的研发需要大量实验,如果失败不能共享,组织会反复踩同一个坑。
工程组织的知识复用
前沿 AI 团队的核心资产不只是模型权重,还包括失败实验、调参经验、数据处理方法和对问题的共同理解。Deep Dive 是把这些隐性知识显性化。
切换时机:机会与风险
接下来讨论简化最危险的一步:什么时候可以把旧路线切掉。对车企来说,这不是研究组内部开关,而是直接影响用户安全和量产质量的决策。
车企不能因为技术酷就上线。模型要真正替代规则,需要等到某个时间点:模型性能明显超过规则,坏处可控,好处明显,安全责任和量产质量能承受。刘先明提到测试员鼓掌的时刻,就是模型超越旧规则的一种组织信号。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{ai-transition-risk-balance.png}
\caption{切换时机:机会 vs 风险。车企必须等模型超过规则,而不是只因技术酷就上线。}
\end{figure}
技术路线切换不能靠信仰硬推
在车企里,技术路线切换必须对安全、质量和用户负责。正确做法不是“模型很酷所以全量上线”,而是让模型在关键指标上超过旧系统,并逐步扩大部署。
本章小结
小鹏这次转型同时发生在技术和组织两层:技术上拆掉中间层,组织上缩短信息链路。两者都服务于同一个目标:让数据和真实问题更快进入模型迭代。
量产视角:技术、质量、成本和责任要一起算
前面讲了技术路线和组织简化,本章补上量产视角。刘先明多次强调,他更喜欢从真实问题里找下一阶段要做的事情。自动驾驶负责人不只是研究负责人,还要面对产品、业务、质量、硬件、成本和用户安全。这个视角解释了为什么车企不能简单照搬研究团队的节奏。
量产不是研究的尾声,而是问题来源
研究团队常常先定义任务,再找数据和模型;量产团队面对的是真实用户每天遇到的问题。车在路上出现的每个接管、每个不舒适动作、每个误判、每个用户投诉,都会变成下一轮模型和工程要解决的问题。量产不是研究结束后的部署环节,而是持续产生研究问题的入口。
量产问题如何反哺模型
| 量产信号 | 进入模型前要做什么 | 反哺价值 |
|---|---|---|
| 接管 | 定位接管原因、切出片段、标注上下文 | 找到模型盲区和规则上限。 |
| 用户不适 | 关联驾驶动作、速度、车距和环境 | 优化舒适性和风格。 |
| 事故/风险 | 做责任归因、复盘感知/预测/规划链路 | 形成安全样本和评测集。 |
| 硬件约束 | 记录算力、传感器、延迟和成本限制 | 指导蒸馏、量化和剪枝。 |
为什么“简单即美”不是粗暴删除
简单不是把所有保护都删掉,而是把重复、过时、阻碍 scaling 的结构删掉。车企仍然必须保留安全冗余、质量验证和上线流程。刘先明强调的简单,是让研发工序更短、目标更少、问题暴露更快,而不是牺牲安全边界。
简化不等于冒进
如果为了追求端到端而忽略安全、测试和量产质量,简化会变成冒进。真正的简化,是减少无效复杂度,同时保留必要安全约束。
本章小结
Physical AI 的量产路线要求技术和责任一起前进。模型要更大、数据要更多,但上线必须经受安全、质量、成本和用户体验检验。
换帅背后:不同阶段的历史使命
前面讲技术和组织,本章回到换帅。小鹏自动驾驶经历多任负责人:谷俊丽、吴新宙、李力耘、刘先明。刘先明没有直接定义每个人的历史使命,但可以从技术阶段看:早期需要探索和搭建能力,中期需要规则/量产体系,之后需要端到端转型,而现在进入 Physical AI 和更大模型/数据 scaling 阶段。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{leader-mission-stages.png}
\caption{小鹏智驾负责人使命:不同阶段对应不同技术路线和组织任务。自制概念图,依据 00:54:30--01:48:46 对谈内容整理。}
\end{figure}
读图:换帅不是孤立人事,而是阶段变化
每一任负责人面对的主问题不同:早期探索、规则量产、端到端转型、Physical AI 和下一阶段生活服务化。组织换帅往往伴随技术栈和公司战略变化。
何小鹏的角色
刘先明描述何小鹏是坦诚、技术宅、问题很 sharp 的老板。他们最初聊的不是普通面试,而是“下一代怎样甩开对手”。在技术规划上,何小鹏会在机会与风险之间动态平衡;当模型性能和机会足够清晰时,他会调整判断。这个过程不是靠“说服老板”,而是靠把事情做出来,让技术涌现改变决策。
技术涌现改变决策
在高不确定技术路线里,最有说服力的不是口头争论,而是模型性能突然跨过某个阈值。组织应该保留足够空间,让正确技术在指标和体验上自然显现。
预算、风险和 CEO 的问题
何小鹏会问非常直接的问题,例如“为什么花这么多钱”。这个问题不是简单压预算,而是在逼团队说明:更大模型、更大数据、更大 infra 的投入,如何变成可部署能力、用户体验和商业结果。Physical AI 的 scaling 很贵,CEO 的角色不是只批准预算,而是持续追问机会、风险和时间窗口。
Scaling 不是免费午餐
更大模型和更多数据会带来能力,但也会带来训练成本、车端部署成本、组织复杂度和质量风险。车企必须把技术路线和财务、量产、安全一起算。
Meta 与 Google 的组织启发
刘先明提到 Meta 的半年节奏和 reorg 文化适合互联网快速试错,但 AI 时代很多事情需要从头建体系,半年一次的大调整未必友好。Google 在 Larry Page / Sergey Brin 回归后也发生变化。这个比较说明,公司文化会影响长线 AI 项目:如果考核周期太短,团队可能很难做需要一年以上才能验证的底层系统。
AI 时代的组织时间尺度
互联网产品可以高频试错、快速砍掉;Physical AI 和大模型基础设施往往需要长周期验证。组织如果只接受短周期收益,就会伤害底层能力建设。
未来一到五年
刘先明对一年、三年、五年的判断很有层次:一年后,智能化会更全面地接触生活,可能仍以数字 AI 为主;三年后,物理 AI 可能真正进入生活;五年后难以预测,因为世界发展太快。对个人和组织来说,能做的是持续学习,识别思维惯性,把当前认知下最正确的事情做好。
本章小结
换帅背后,是小鹏智驾从规则、端到端走向 Physical AI 的阶段切换。领导者的任务不只是管理团队,而是用工程和组织让正确技术路线跑出来。
术语消化:本期关键词索引
| 术语 | 一句话解释 | 在本期中的作用 |
|---|---|---|
| Physical AI | 物理世界中的 AI,能感知、决策并执行动作 | 小鹏从自动驾驶升级到 AI 战略的核心框架。 |
| Robotaxi | 自动驾驶出租车服务 | 刘先明希望在广州跑好的阶段性目标。 |
| Software 1.0 | 规则、优化和手写逻辑主导的软件栈 | 早期自动驾驶路线。 |
| Software 2.0 | 神经网络和数据驱动的软件栈 | 端到端自动驾驶的基础概念。 |
| VLM | Vision-Language Model,视觉语言模型 | 理解视觉和语言,但不一定直接输出 action。 |
| VLA | Vision-Language-Action,视觉语言动作模型 | 小鹏 Physical AI 技术栈的重要方向。 |
| Language Bottleneck | 把连续传感器信息压成语言 token 的中间瓶颈 | 刘先明主张拆掉的关键中间层。 |
| Self-supervised Learning | 自监督学习,用数据自身构造训练信号 | 支撑大规模数据利用,减少人工标注依赖。 |
| Scaling | 通过更大模型、更多数据、更多算力提升能力 | 刘先明认为 Physical AI 的关键 bet。 |
| 云端模型工厂 | 云端训练大模型,再压缩部署到车端 | 连接 scaling 和车端量产的工程结构。 |
| 蒸馏 | 用大模型训练小模型,让小模型继承能力 | 云端到车端部署的重要手段。 |
| 量化/剪枝 | 降低模型精度或裁剪参数以适配硬件 | 车端部署和成本控制需要。 |
| Infra | 数据、训练、分析和部署基础设施 | Cruise 和小鹏路线共同强调的底座。 |
| Corner Case | 长尾边界场景 | 自动驾驶数据闭环要持续挖掘的对象。 |
本章小结
本期术语围绕一个问题展开:如何把自动驾驶从规则工程升级为可 scaling 的 Physical AI 系统。关键词不是孤立名词,而是训练、压缩、部署和量产反馈的一条链。
总结与延伸
核心结论
- 小鹏转向 Physical AI,不是给车加大模型,而是重写自动驾驶的数据和模型闭环。
- 刘先明的路径说明,真实世界问题和使命感会持续牵引技术选择。
- 自动驾驶软件栈从规则、半模型、端到端,走向更大模型和云端工厂。
- “Language 是毒药”的准确含义,是语言作为中间监督瓶颈会限制 data scaling。
- 拆掉中间层的目标,是让连续传感器数据和动作输出更直接地进入训练。
- 主机厂优势在真实车队、可控数据链路和量产反馈。
- 云端模型工厂负责训练大模型,再蒸馏、量化、剪枝到车端部署。
- 技术简化和组织扁平化是同一件事:都在减少瓶颈。
- 换帅背后是技术阶段切换,刘先明的任务是把 Physical AI 路线跑成生活服务。
- 未来关键 bet 是 Physical AI 中的 scaling,以及持续识别自己的思维误区。
开放问题
最后保留开放问题,是因为小鹏这条路线仍在高速展开。真正要观察的,不只是“拆掉了什么”,还包括拆掉之后系统是否更稳、更可控、更能 scale。
- 拆掉 Language 后,模型如何保留足够高层语义和可解释性?
- 云端大模型到车端模型的蒸馏,会不会成为体验上限?
- 主机厂数据闭环能否追上 Robotaxi 专用车队的高质量闭环?
- Robotaxi 在广州跑好,距离全国规模化还有哪些非技术阻力?
- 扁平工程组织在规模化量产和质量体系中能保持多久?
- Physical AI 的 scaling 会先在车上验证,还是在机器人/其他本体上验证?
拓展阅读
- EP121 谭杰访谈:机器人、世界模型、跨本体和 Gemini Robotics 1.5。
- EP132 高继扬访谈:Waymo、Momenta 和星海图的具身智能生产化。
- EP134 数据综述:Data Recipe、机器人数据和数据定价。
- Software 2.0、VLA、VLM、自监督学习和模型蒸馏相关资料。
最后的判断
EP120 最值得保留的不是一句“拆掉 L”,而是一套工程哲学:当中间层成为数据 scaling 的瓶颈,就要拆;当组织层级成为问题反馈的瓶颈,也要拆。Physical AI 的进步,来自更直接的数据、更大的模型、更短的工程链路和更坚决的量产验证。