Ep118 Rxxvq7 Sjzm
导读:把 CEO 当作一个 MoE 大模型来提问
本节先建立整期访谈的阅读方法。张小珺在开场里给出一个很好的框架:把李想当作一个“CEO 大模型”,并假设它是一种 MoE(Mixture of Experts,混合专家)架构。前三个回合依次调用技术专家、战略专家和组织专家;后半程则把问题从模型、车、机器人推进到能量、亲密关系、记忆和智慧。这个框架不是玩笑,它把三小时访谈从人物访谈变成了一份关于 AI 时代公司、产品和人的系统思考。
这份笔记的目标不是复述逐字稿,而是把访谈整理成可学习的结构。第一条线是 AI 技术线:人类上下文窗口、DeepSeek 最佳实践、VLA、世界模型、Agent OS、Action 和对齐。第二条线是公司战略线:规模、用户需求、技术产品、组织能力,以及理想为什么把车、机器人和操作系统放进 AGI 时代终端的想象。第三条线是人和组织线:能量、亲密关系、共同大脑、共同心脏,以及李想对“智慧”的定义。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{ceo-moe-interview-map.png}
\caption{CEO 大模型访谈地图:把李想当作 MoE 架构,技术、战略、组织与人共同被调用。自制概念图,依据 00:01:56--00:02:20 与 00:36:18--00:36:25 对谈内容整理。}
\end{figure}
读图:为什么 MoE 是整期的组织方式
MoE 的直觉是“不同专家负责不同能力”。访谈用这个隐喻把李想的回答分成几个专家通道:技术专家解释 VLA 和世界模型,战略专家解释规模和平台路线,组织专家解释人才密度和方法论,最后回到一个人的能量、关系和智慧。读这期时,关键不是记住所有观点,而是看这些专家通道如何互相调用。
本期核心命题
AI 时代的公司不只是把模型接到产品上,而是要同时重写产品形态、组织结构、行动闭环和人的关系。车、机器人、Agent OS、世界模型和亲密关系看似分散,其实都在回答同一个问题:智能如何进入真实世界并持续产生价值。
术语消化:本期的关键概念
| 术语 | 解决的问题 | 在本期中的含义 |
|---|---|---|
| MoE | 用多个专家分担模型能力 | 既指 DeepSeek 等模型架构,也被用来隐喻 CEO 的多专家能力。 |
| VLA | 从视觉和语言走向动作 | Vision-Language-Action,是理想讨论自动驾驶和机器人的核心技术路线。 |
| World Model | 预测环境变化 | 在交通场景中用于考试、生成训练数据,并可能成为自动驾驶运营系统。 |
| Agent OS | 通用 Agent 的替代表达 | 李想认为短期不会有单一通用 Agent,但会有让专业 Agent 运行的操作系统。 |
| Action | 让 AI 真正改变世界 | 当 AI 调用工具、资产、车辆和电脑时,对齐、权限和责任都变得更重。 |
本章小结
EP118 的难点在于跨度极大。把它按 MoE 隐喻拆开后,主线会清楚很多:技术专家回答“模型如何进入物理世界”,战略专家回答“公司如何成为下一代平台”,组织和人回答“谁来承受这种变化”。
人类上下文窗口:人做熵减,AI 做熵增
本章从开场的“长文本对话”开始。张小珺问李想,如果你是一个大模型,上下文窗口有多大。李想的回答没有沿着 token 数字走,而是转向人和 AI 的差别:人类不擅长处理特别复杂的信息,所以人要做熵减;AI 擅长吞吐巨量信息,更像做熵增。这里的“熵减”不是物理学严格定义,而是一种管理和认知方法:把复杂世界压缩成少数关键判断、少数动作和少数原则。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{human-ai-context-window.png}
\caption{人类上下文 vs AI 上下文:人更适合做减法,AI 更适合处理大规模信息。自制概念图,依据 00:02:35--00:04:10 对谈内容整理。}
\end{figure}
读图:上下文窗口不是越大越像 CEO
大模型可以吞吐很多 token,但 CEO 的价值常常在于压缩:把复杂信息变成战略、组织和行动。反过来,AI 如果只停留在“知道很多”,没有连接工具、行动和反馈,也不能产生真实价值。
工具三级:信息工具、辅助工具、生产工具
上一节把人类与 AI 的上下文能力区分开,本节进一步追问:这种能力差异怎样变成产品价值。李想把工具分成三个层级。信息工具让人查到信息;辅助工具提高人的效率;生产工具则直接产生可付费的生产力。这个分类很重要,因为它给 AI 产品估值提供了一个更硬的标准:不是能不能回答,而是用户是否愿意为它付钱,是否愿意把真实工作交给它。
生产工具的判别标准
如果一个 AI 工具只让人“觉得聪明”,它仍然可能只是信息工具;如果它能替代或解放人的高频真实工作,并且用户愿意为结果付钱,它才开始进入生产工具层级。
DeepSeek:极简地运用最佳实践
接下来,访谈转向 DeepSeek。李想从 DeepSeek 学到的不是某个单点技巧,而是“极简地运用人类最佳实践”:先做研究,再做研发,再转化为业务;如果是业绩差距,就调整策略;如果是能力差距,就回到能力建设。这种路线看起来朴素,但很反人性,因为它要求组织不断承认自己能力不足,而不是只靠业务动作硬推。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{deepseek-best-practice.png}
\caption{从 DeepSeek 学到的最佳实践:极简地使用人类最佳实践,再把组织和工程压实。自制概念图,依据 00:15:01--00:19:10 对谈内容整理。}
\end{figure}
读图:DeepSeek 被当作组织案例而不只是模型案例
图里从 MoE 到实践的顺序,表达的是一套组织学习路径:先研究问题,再构建能力,再工程验证,最后让能力变成业务结果。李想关心 DeepSeek,是因为它展示了小团队、高密度人才、开源和工程实践如何形成合力。
“最佳实践”并不自动产生最佳结果
最佳实践往往反人性,因为它要求慢下来做研究、做能力、做复盘。随心所欲更满足人性,但容易把问题误判成短期策略问题,而忽略真正的能力缺口。
为什么还要自研基座能力
访谈里有一个细节:理想内部也担心“用开源模型会不会伤害自研团队”。李想的回答是,开源语言模型可以成为一个基础,但理想要做的是基于业务场景发展出自己的 VLA、Agent OS 和物理世界能力。这里的核心不是“开源还是自研”的二选一,而是开源底座如何被嵌入公司自己的数据、任务、工具链和场景里。
开源模型与公司能力的关系
Linux 可以开源,但安卓仍然形成了自己的组件、API、生态和产品体验。同理,语言模型可以开源,车企仍然需要围绕车、机器人、数据和用户场景构建自己的系统能力。
本章小结
开场章节给整期定了基调:AI 不只是大上下文和大参数,而是怎样把信息处理能力变成行动能力。DeepSeek 被讨论,是因为它把研究、工程和组织压缩成了一条可学习的方法论。
技术专家一:VLA 是物理世界的 Driver OS
上一章讲 AI 产品和组织方法,本章进入技术专家通道。张小珺调用“CEO 大模型的技术专家”,让李想讲 VLA。VLA 即 Vision-Language-Action:Vision 负责感知物理世界,Language 负责理解规则、意图和知识,Action 负责输出动作。对理想而言,VLA 不是抽象多模态玩具,而是“司机大模型”,也是汽车和交通领域更重要的大模型或操作系统。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.86\textwidth]{vla-driver-os-stack.png}
\caption{VLA 司机操作系统:Vision、Language、Action 组合成物理世界的驾驶大模型。自制概念图,依据 00:36:18--00:42:30 对谈内容整理。}
\end{figure}
读图:VLA 的三层不是并列名词
Vision 解决“看见”,Language 解决“理解”,Action 解决“做”。自动驾驶真正难的是把三者放到一个可训练、可评测、可部署的闭环里,而不是分别把视觉模型、语言模型和控制器拼在一起。
从规则算法到端到端,再到 VLA
李想把智能驾驶的演化描述为进化过程,而不是突变。早期是规则算法,之后是端到端加 VLM,现在进入 VLA 阶段。这里的关键变化是,系统不再只是“看懂”和“规划”,而是要把动作输出纳入学习。VLA 的目标不是让车学会讲道理,而是让车在真实道路上做出更像人、更稳定、更安全的驾驶动作。
VLA 的技术定义
VLA 是把视觉输入、语言/知识表示和动作输出放入统一训练与推理链路的模型。对自动驾驶而言,它的输出不是文本,而是车辆行为;因此它的评测也不能只看回答质量,而要看安全、舒适、规则遵守和目的达成。
32B 云端机座与车端部署
访谈提到,理想正在训练 32B 的云端 VL 机座模型。云端模型负责吃更大数据、更大参数和更复杂训练;车端模型则受限于算力、延迟和安全要求,需要通过蒸馏、部署和验证进入车辆。这个结构和前面 EP120 小鹏谈到的云端模型工厂相互呼应:物理世界 AI 往往不是“一个模型上车”,而是“云端训练、端侧压缩、真实验证”的系统工程。
术语消化:VLA 训练链路
| 环节 | 作用 | 风险与约束 |
|---|---|---|
| VL 机座 | 让模型理解视觉和语言 | 需要大规模多模态数据和算力。 |
| Action 训练 | 把理解转为控制动作 | 输出直接影响安全和体验。 |
| 世界模型数据 | 提供可控训练和测试场景 | 仿真与真实世界之间仍有差距。 |
| 端侧模型 | 在车端实时运行 | 算力、延迟、功耗和法规约束更强。 |
| 道路验证 | 判断实际能力 | 验证成本高,长尾场景难覆盖。 |
本章小结
VLA 在这期里不是流行词,而是一种产品系统:它要从云端机座、世界模型、动作训练、端侧部署到道路验证全部打通。只有这样,AI 才能从“回答问题”进入“驾驶车辆”。
技术专家二:世界模型、强化反馈与交通闭环
上一章讲 VLA 是什么,本章解释它如何训练和验证。李想提到,理想会使用世界模型生成数据来训练,让模型从 A 点开到 B 点,并用舒适性、碰撞、交通规则等反馈判断结果。这里可以看到一个很明确的模式:真实车队提供数据,世界模型生成和考试,VLA 在数据和反馈中更新,最后再部署回车辆。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{world-model-loop.png}
\caption{交通世界模型闭环:真实驾驶数据、仿真生成和 VLA 训练互相推动。自制概念图,依据 00:47:30--00:48:10 与 01:10:06--01:10:48 对谈内容整理。}
\end{figure}
读图:世界模型有三种角色
第一,它可以当考试系统,测试 VLA 在不同交通场景中的表现。第二,它可以生成训练数据,覆盖真实道路中难以高频采集的场景。第三,它未来可能成为无人车运营系统的一部分,帮助没有司机的车辆理解和预测交通世界。
世界模型不是“画面生成器”
在自动驾驶语境里,世界模型不只是生成漂亮视频。它必须对动作后果敏感:如果车辆变道、加速、避让或等待,交通世界会怎样演化。它还要对安全和规则敏感:碰撞、急刹、闯灯、压线、插队、舒适性都不只是视觉问题,而是任务结果问题。
世界模型的最小公式
可以把交通世界模型粗略写成:
其中,\(s_t\) 表示当前交通状态,\(a_t\) 表示车辆动作,\(c_t\) 表示场景约束和规则,\(s_{t+1}\) 表示下一时刻状态。真正难的是让 \(f\) 对真实道路的长尾场景足够可靠。
验证成本与模型规模
李想提到验证成本从每一万公里 18 万降到 4000 元,这说明 VLA/世界模型路线不只是模型能力问题,也会改变验证经济学。自动驾驶如果只能靠真实道路堆里程,成本会非常高;世界模型和仿真可以降低某些测试成本,但最终仍需要真实世界验证兜底。
仿真不能直接替代真实世界
世界模型可以降低探索和验证成本,但不能把真实世界完全替换掉。仿真中没有覆盖的长尾行为、传感器噪声、道路施工、极端天气和人的非理性动作,仍然可能在真实道路中出现。
L3、L4 与车端算力上限
前面讨论了世界模型如何降低训练和验证成本,本节把问题落到自动驾驶等级与端侧约束。访谈中,李想把 L3/L4 能力和云端、端侧模型规模联系起来。他认为当前一代算力大致对应 L3 能力,L4 还需要更多能力和更多条件。这个判断的教育意义在于:自动驾驶等级不是单纯软件开关,而是模型规模、端侧算力、验证体系、法规和运营责任共同决定。
术语消化:L3 与 L4
L3 通常意味着在特定条件下系统可以承担驾驶任务,但需要人类在系统请求时接管;L4 则意味着系统可在限定运营设计域内不依赖人类接管。二者的差别不仅是模型分数,更是责任边界、冗余设计、法规和运营系统的差别。
本章小结
世界模型把 VLA 从“会开车的模型”推进为“可训练、可考试、可运营的系统”。它降低验证成本,但不能消除真实世界的不确定性;它提高上限,但也要求更强的算力、数据和安全体系。
从回答到行动:Agent OS 与对齐要求
本章把自动驾驶问题推广到 Agent。李想认为,五年内未必会有通用 Agent,但会有 Agent OS。这个判断的含义是:不同专业工种需要不同 Agent,但这些 Agent 需要共同运行在一个操作系统式底座里,获得工具、权限、上下文、虚拟机、记忆和安全边界。Agent OS 不是一个聊天窗口,而是专业 Agent 的基础设施。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{action-agent-alignment.png}
\caption{从回答到行动:AI 进入资产、工具和车辆时,对齐要求会变高。自制概念图,依据 00:53:58--00:55:00 与 00:55:00--00:55:25 对谈内容整理。}
\end{figure}
读图:行动会放大风险
信息检索错了,可以重搜;研究错了,可以复核;但如果 Agent 调用资产、工具、电脑、车辆或财产,错误会直接改变世界。因此 Agent 的对齐要求、权限边界和可追责性都比聊天模型更高。
为什么通用 Agent 不如专业 Agent
李想认为,真实生产工具要替代和解放人类的高频工作,例如开车、编程、运营、销售或制造。不同工种有不同数据、工具、权限、错误代价和评价标准,因此短期更可能出现专业 Agent,而不是一个全能 Agent。Agent OS 的价值在于,为这些专业 Agent 提供共同运行环境。
Agent OS 的定义
Agent OS 是让专业 Agent 运行的基础系统。它至少包括上下文管理、工具调用、权限控制、虚拟机或执行环境、记忆、日志、评测和安全策略。它的价值不在于“什么都能做”,而在于让不同专业 Agent 能可靠地做事。
对齐从语言问题变成行动问题
当 AI 只是回答问题时,对齐主要是内容安全、事实准确和价值偏好;当 AI 开始调用工具和资产,对齐变成操作风险。比如一个驾驶 Agent 的错误会影响道路安全;一个财务 Agent 的错误会影响资金;一个代码 Agent 的错误会影响系统稳定。对齐因此从“模型说得对不对”扩展到“模型做得可不可控”。
对齐需求的粗略分层
其中,\(\text{action scope}\) 表示 Agent 能操作的范围,\(\text{asset value}\) 表示被调用资产的价值,\(\text{irreversibility}\) 表示错误是否容易撤销。越接近车、钱、账号、生产系统和物理设备,对齐要求越高。
本章小结
Agent OS 是这期从自动驾驶推到通用 AI 产品的关键桥梁。它说明 AI 的下一步不是更会聊天,而是更会在有权限、有工具、有责任的环境里行动。
战略专家一:规模、用户需求、技术产品、组织能力
上一章讲行动系统,本章进入战略专家通道。李想谈 2025 雁栖湖战略会时,把战略放进一个四变量框架:中间是规模,外面是用户需求、技术产品和组织能力。规模不是单纯收入数字,而是会改变用户结构、产品复杂度、组织协作方式和外部竞争格局。公司从百亿收入到千亿收入,再往更高规模走,必须重新学习行业最佳实践。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{org-as-moe.png}
\caption{组织也像 MoE:CEO 调度专家、方法论、年轻人才和反馈回路。自制概念图,依据 01:25:36--02:03:20 对谈内容整理。}
\end{figure}
读图:组织不是人数堆叠,而是专家调度
技术、产品、战略、校招、方法论和反馈共同构成组织能力。组织像 MoE,是因为不同专家能力要被正确调度;如果路由错误,再多专家也会互相抵消。
从丰田、GM、Google、华为到自己的方法论
上一段把组织看成专家调度系统,本节回到这个系统如何形成。理想早期学习丰田工作法、GM 研发流程、Google OKR,后来又研究华为和苹果。这些学习不是复制,而是在不同规模阶段寻找可迁移的方法。理想 ONE 阶段需要交付;千亿收入阶段需要人才密度、组织协同和平台能力;AGI 时代终端阶段则需要模型、操作系统、硬件和生态。
方法论不能当作宗教
学习丰田、Google、华为或苹果,不等于照搬某个组织口号。方法论必须服务当前规模、产品阶段和能力缺口。公司规模变了,用户需求和组织形态也会变,旧方法可能从资产变成负担。
小组织与高密度人才
如果方法论决定协作方式,那么接下来的问题就是谁来执行这些方法论。李想多次提到小团队、高密度人才和校招占比。AI 时代的一个可能变化是,更多小组织通过模型、工具和方法论获得更强脑力与心力,而不是靠人数线性扩张。DeepSeek 的例子也被用来说明:团队不一定大,但必须高密度、方向统一、工程闭环强。
组织能力的四个层次
第一层是人才密度:人是否足够强。第二层是方法论:强人是否用同一套语言协作。第三层是反馈:真实业务和用户是否不断校正判断。第四层是能量:团队是否愿意持续承受困难任务。
本章小结
战略专家通道把理想放在规模变化中理解。公司不是从 A 点线性走到 B 点,而是每跨过一个规模台阶,都要重新配置用户需求、技术产品和组织能力。
战略专家二:AGI 时代的终端与下一代苹果
本章讨论访谈中最宏大的战略想象:理想是否能成为 AGI 时代的苹果。李想把 AGI 时代终端定义为具备四类能力:360 度感知物理世界、认知决策、Action、反思反馈。这个定义把“终端”从屏幕设备扩展到物理世界入口:车可以是终端,机器人也可以是终端,家庭设备和工厂设备也可能成为终端。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{agi-era-apple-route.png}
\caption{AGI 时代的苹果路线:车、机器人、操作系统和模型能力共同构成入口。自制概念图,依据 01:38:20--01:46:40 与 02:09:16--02:09:21 对谈内容整理。}
\end{figure}
读图:车不是唯一终点,而是物理入口
图中的车、VLA、机器人、操作系统和 AGI Apple 不是线性口号。车是现有最大规模物理入口,VLA 是驾驶大脑,机器人扩展到家庭和工厂,操作系统连接软件和工具,最终才可能形成下一代平台。
软件能力:操作系统、虚拟机和工具
上一节把车和机器人放进下一代平台想象,本节先拆软件底座。李想认为,AGI 时代终端需要不同的软件能力。第一,要有操作系统能力,能让 AI 在物理和数字世界中稳定运行。第二,要有虚拟机或执行环境能力,让 Agent 在本地电脑、云端和设备之间运行。第三,要有工具生态,因为 Agent 需要调用工具,而工具本身也会为 AI 重新设计。
为什么操作系统重新变重要
当 AI 只是应用时,操作系统像背景;当 AI 要持续观察、调用工具、控制设备、记录状态并执行动作时,操作系统就变成安全、性能、权限和生态的核心。
硬件能力:感知、算力和本体
软件底座解决“怎样运行”,本节转向“运行在什么身体上”。AGI 终端也需要硬件能力。车有传感器、算力、能源、空间和移动能力;机器人有本体、执行器、触觉和工厂/家庭场景;家庭设备可能需要统一感知和统一大脑。访谈里李想没有把机器人路线说成唯一答案,而是承认两种可能:人形机器人可以用人类工具,也可以改造工具和环境,让非人形设备完成任务。
机器人路线的两种想象
| 路线 | 优势 | 难点 |
|---|---|---|
| 人形机器人 | 适配人类现有工具和空间 | 本体复杂、成本高、控制难。 |
| 改造环境/工具 | 更容易在单任务中做到高可靠 | 需要重新设计家庭、工厂或设备生态。 |
| 统一大脑 | 可复用模型、记忆和任务理解 | 不同本体之间动作空间差异大。 |
销量与 AI 价值的错位
市场现在仍主要用销量看理想,因为 AI 能力带来的云服务价值、软件价值和平台价值还没有充分表现出来。这个错位并不罕见:在平台转型早期,外部常常先用旧指标评价新能力。真正的拐点会出现在 AI 能力能改善体验、降低成本、带来收入或打开新终端形态时。
“成为苹果”不是品牌比喻,而是平台比喻
如果只把苹果理解为高端品牌,就会误读这段讨论。李想谈的是平台能力:硬件、操作系统、开发生态、用户入口、工具链和商业模式。车企要成为 AGI 时代的苹果,必须证明自己不只是卖车。
本章小结
AGI 时代终端的想象把理想的战略从汽车扩展到平台。车是入口,VLA 是能力,Agent OS 是软件层,机器人是延伸,本质问题是公司能否把物理世界入口变成智能平台。
组织与人:反人性、顺人性与共同大脑
上一章讲平台,本章回到组织。李想反复提到“顺着人性去说,逆着人性去做”。这句话容易被理解成管理技巧,但在访谈语境里,它指向组织变革的困难:最佳实践、能力建设、长期主义、复盘和自我否定往往反人性;而随心所欲、短期逃避、自我合理化更顺人性。一个组织如果要持续进化,就必须设计一种既理解人性、又能推动反人性成长的机制。
反人性不是压抑人,而是对抗惰性
当李想说“反人性”,他强调的是对抗懒惰、逃避和短期舒适,而不是否定人的感受。优秀组织必须顺着人的表达和尊严去沟通,但在能力建设和结果要求上不能放任。
三到七个人的共同大脑和共同心脏
上一节说明组织要理解人性但不能纵容惰性,本节看李想给出的具体组织单元。访谈后半程,他谈到一种模式:三到七个人组成更强的大脑、更强的心脏和更强的能量。这不是普通小组讨论,而是把能力互补、情绪能量、责任共担和方法论统一放在一起。一个人很有能力但没有结果,可能是因为缺少这种共同结构。
共同大脑的四个条件
第一,成员彼此互补,而不是互相复制。第二,有共同目标和方法论。第三,关系足够近,能够真实反馈。第四,团队有共同承担压力的能量,而不只是分工表。
在意用户与在意身边的人
李想把人和人连接的本质归纳为两个“在意”:在意用户,在意身边的人。在意用户是价值观共识,在意身边的人则是协作基础。一个组织如果只讲事情、不讲人,很容易把关系消耗掉;如果只讲关系、不讲用户,又会失去结果。优秀组织要在两者之间保持张力。
“对事不对人”有时会掩盖真实问题
工程组织常说对事不对人,这能避免情绪化攻击。但如果完全不看人,就会忽略人的成长、动机、能量和关系质量。李想这里强调“先对人再做事”,是提醒组织问题最终要落到人是否变强。
本章小结
组织能力不是流程图,而是人如何在长期压力中共同成长。AI 时代的小组织可能更强,但前提是它有共同大脑、共同心脏、共同方法论和共同能量。
能量、亲密关系与记忆程序
上一章把组织理解为共同大脑和共同心脏,本章进入更底层的能量来源。本节先看访谈里最不像技术、但最能解释李想方法论的一部分:能量来自成长、来自亲密关系、来自被需要和需要别人。他说自己需要孩子、爱人和一级部门负责人,甚至他们对自己的重要性超过自己对他们的重要性。这种表达不是情感鸡汤,而是把关系看成一种反馈系统:亲密关系让人看到自己的不足,也让人持续变好。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{energy-relationship-loop.png}
\caption{能量与亲密关系:关系不是消耗项,而是让人变得更好的反馈系统。自制概念图,依据 02:09:26--02:28:20 对谈内容整理。}
\end{figure}
读图:能量不是兴奋感,而是持续反馈
需求、连接、反馈、能量和成长形成循环。亲密关系之所以重要,是因为它能提供真实反馈;真实反馈会暴露不足;接受不足并变好,才会产生持续能量。
亲密关系的边界
前面强调亲密关系会带来能量,本节补上同样重要的边界条件。李想也强调,不要构建太多亲密关系。亲密关系不是泛泛社交,而是直系亲属、少数多年朋友、以及工作中一起扛责任的人。能带来伤害的,往往也只有亲密关系,因为它真正进入了人的需求和脆弱处。这个观点可以迁移到组织:高质量关系有能量,低质量关系会消耗能量。
亲密关系的定义
亲密关系不是聊天频率高,也不是社交关系近,而是彼此能真实需要、真实反馈、共同承担后果,并在长期中让对方变好。
记忆程序:如果可以修改一段人生代码
访谈里还出现了“记忆程序”的问题:如果能删除或修改记忆,会选择什么。李想的回答并不把痛苦记忆简单视为坏事,因为很多记忆塑造了今天的方法论、关系和判断。这里可以把“记忆”理解为人的训练数据:它不只是存档,也是行为策略和价值判断的来源。
记忆作为人的训练数据
AI 模型通过数据形成参数,人则通过记忆、关系和行动形成方法论。删除痛苦记忆看似降低损耗,但也可能删除能力来源。重要的是把记忆消化成方法,而不是被记忆反复触发。
本章小结
能量和亲密关系不是访谈里的“人文插曲”,而是李想理解组织和智慧的底层变量。没有能量,方法论无法长期执行;没有真实关系,人很难看见自己的盲区。
智慧是我们和万物的关系
本章收束到访谈后半程的核心定义:智慧就是我们和万物的关系。这个定义很特别,因为它没有把智慧理解为 IQ、知识量或推理分数,而是理解为人与人、人与物、人与组织、人与技术、人与世界的关系质量。AI 的意义也因此不只是替代人,而是把人从低价值、耗能的动作里解放出来,让人有更多能量去处理更高质量的关系。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{wisdom-relation-map.png}
\caption{智慧是关系:智慧来自与人、物、组织、技术和世界持续接触。自制概念图,依据 02:26:47--02:31:10 对谈内容整理。}
\end{figure}
读图:智慧不是脑内分数
人、物、组织、技术和世界共同构成智慧的来源。一个人如果只在脑内推理,而不接触真实人和真实事,智慧会变薄;一个 AI 如果只在 token 里循环,而不进入行动和反馈,也难以形成真实价值。
AI 的意义:减少消耗性动作
上一段把智慧定义为关系,本节转向 AI 如何改变这些关系中的动作分配。李想举销售人员的例子:好的销售和产品专家喜欢与客户接触,因为那能带来能量;但重复邀约、低价值流程、机械沟通可能消耗能量。AI 的价值之一,是自动化这些消耗性动作,让人把能量放在更有智慧、更有关系质量的事情上。
AI 与人的关系
AI 不只是替代劳动,更是重新分配人的能量。真正好的 AI 系统应该减少低价值、重复、耗能的动作,同时保留或增强人与客户、产品、组织和世界的高质量接触。
从套壳到基础能力
如果 AI 的意义在于承担更多 action,那么最后就必须回到基础能力问题。在结尾处,李想谈到对“小红”等 Agent 应用的看法。他认为把 AI 往真正 action、专业 action 和 to-do list 方向推进,是重要尝试;但如果对手都是强模型公司,仅靠套壳、虚拟机和工具能力不够,必要的模型能力还是要真正训练。这段话给 AI 应用创业一个很清楚的提醒:入口、流程和产品体验可以先跑,但最终要补基础能力。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{shell-vs-model-ability.png}
\caption{套壳与模型能力:应用创新要走向 action,最终仍要补基础能力。自制概念图,依据 02:44:21--02:45:30 对谈内容整理。}
\end{figure}
读图:套壳不是没价值,但不能停在那里
左边的套壳/工具能快速验证用户需求和工作流,右边的基础能力决定长期上限。Agent 应用如果想进入专业 action,就必须逐步补模型、记忆、工具调用、评测和可靠性。
不要把“套壳不是创新”理解成反应用
应用创新非常重要,因为它最接近用户和行动场景。但当场景进入高价值、强对齐、高可靠任务时,只靠外部模型和薄工作流会遇到上限,基础能力必须跟上。
本章小结
“智慧是关系”把整期从技术重新拉回人。VLA、Agent OS、世界模型和组织方法论最终都不是为了炫技,而是为了让智能更好地进入人与世界的关系中。
总结与延伸
本节把整期访谈压缩成几个可复用结论。第一,AI 产品从信息工具走向生产工具,关键是 action:能不能替代和解放真实工作,能不能进入工具、资产、车辆和设备。第二,物理世界 AI 的核心不是单模型,而是 VLA、世界模型、端侧算力、验证系统和法规责任组成的闭环。第三,AGI 时代终端不只是手机或车,而是能感知物理世界、做认知决策、执行动作并反思反馈的平台。第四,组织能力在 AI 时代反而更重要,因为模型降低了某些执行成本,却提高了判断、方法论和人才密度的重要性。第五,人类智慧不只是认知能力,而是关系能力。
把 EP118 放进张小珺 AI 访谈队列
EP120 讲小鹏如何把自动驾驶转向 Physical AI,EP121 讲 DeepMind 机器人与世界模型,EP119 讲 Attention 架构考古;EP118 则把这些技术线拉进一家公司的 CEO 视角:模型如何成为终端,终端如何成为平台,平台如何反过来要求组织和人改变。
技术 takeaways
- VLA 的重点不是多模态标签,而是把视觉、语言和动作放入统一训练与验证闭环。
- World Model 的价值不只是生成数据,还在于考试、验证和未来运营。
- Agent OS 比通用 Agent 更像短期可落地路线,因为真实工作需要专业工具、权限和安全边界。
- 当 AI 进入 action,风险从内容错误升级为资产、工具和物理世界错误。
- 应用层可以先跑,但长期必须补模型、记忆、评测和执行可靠性。
管理 takeaways
- 最佳实践常常反人性,组织必须设计机制来对抗短期舒服。
- 小团队可以很强,但前提是人才密度高、目标一致、方法论统一、反馈真实。
- 规模变化会改变用户需求、技术产品和组织能力,不能用旧阶段方法解决新阶段问题。
- 亲密关系和能量不是软话题,它们决定一个人和组织能否长期承受复杂任务。
- 智慧可以理解为关系质量:人与人、人与物、人与技术、人与世界的关系越真实,判断越厚。
拓展阅读
- 继续对照 EP120 小鹏刘先明访谈,可比较不同车企对 Physical AI、VLA、云端模型工厂和端侧部署的表达差异。
- 继续对照 EP119 Attention 架构综述,可看到模型基础架构如何影响长上下文、Agent 和物理世界 AI 的推理成本。
- 继续对照 EP121 DeepMind 谭捷访谈,可把 VLA 和世界模型放进机器人跨本体、动作数据和真实部署问题中理解。