Ep118 Rxxvq7 Sjzm

导读：把 CEO 当作一个 MoE 大模型来提问

本节先建立整期访谈的阅读方法。张小珺在开场里给出一个很好的框架：把李想当作一个“CEO 大模型”，并假设它是一种 MoE（Mixture of Experts，混合专家）架构。前三个回合依次调用技术专家、战略专家和组织专家；后半程则把问题从模型、车、机器人推进到能量、亲密关系、记忆和智慧。这个框架不是玩笑，它把三小时访谈从人物访谈变成了一份关于 AI 时代公司、产品和人的系统思考。

这份笔记的目标不是复述逐字稿，而是把访谈整理成可学习的结构。第一条线是 AI 技术线：人类上下文窗口、DeepSeek 最佳实践、VLA、世界模型、Agent OS、Action 和对齐。第二条线是公司战略线：规模、用户需求、技术产品、组织能力，以及理想为什么把车、机器人和操作系统放进 AGI 时代终端的想象。第三条线是人和组织线：能量、亲密关系、共同大脑、共同心脏，以及李想对“智慧”的定义。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{ceo-moe-interview-map.png}
\caption{CEO 大模型访谈地图：把李想当作 MoE 架构，技术、战略、组织与人共同被调用。自制概念图，依据 00:01:56--00:02:20 与 00:36:18--00:36:25 对谈内容整理。}
\end{figure}

读图：为什么 MoE 是整期的组织方式

MoE 的直觉是“不同专家负责不同能力”。访谈用这个隐喻把李想的回答分成几个专家通道：技术专家解释 VLA 和世界模型，战略专家解释规模和平台路线，组织专家解释人才密度和方法论，最后回到一个人的能量、关系和智慧。读这期时，关键不是记住所有观点，而是看这些专家通道如何互相调用。

本期核心命题

AI 时代的公司不只是把模型接到产品上，而是要同时重写产品形态、组织结构、行动闭环和人的关系。车、机器人、Agent OS、世界模型和亲密关系看似分散，其实都在回答同一个问题：智能如何进入真实世界并持续产生价值。

术语消化：本期的关键概念

术语	解决的问题	在本期中的含义
MoE	用多个专家分担模型能力	既指 DeepSeek 等模型架构，也被用来隐喻 CEO 的多专家能力。
VLA	从视觉和语言走向动作	Vision-Language-Action，是理想讨论自动驾驶和机器人的核心技术路线。
World Model	预测环境变化	在交通场景中用于考试、生成训练数据，并可能成为自动驾驶运营系统。
Agent OS	通用 Agent 的替代表达	李想认为短期不会有单一通用 Agent，但会有让专业 Agent 运行的操作系统。
Action	让 AI 真正改变世界	当 AI 调用工具、资产、车辆和电脑时，对齐、权限和责任都变得更重。

本章小结

EP118 的难点在于跨度极大。把它按 MoE 隐喻拆开后，主线会清楚很多：技术专家回答“模型如何进入物理世界”，战略专家回答“公司如何成为下一代平台”，组织和人回答“谁来承受这种变化”。

人类上下文窗口：人做熵减，AI 做熵增

本章从开场的“长文本对话”开始。张小珺问李想，如果你是一个大模型，上下文窗口有多大。李想的回答没有沿着 token 数字走，而是转向人和 AI 的差别：人类不擅长处理特别复杂的信息，所以人要做熵减；AI 擅长吞吐巨量信息，更像做熵增。这里的“熵减”不是物理学严格定义，而是一种管理和认知方法：把复杂世界压缩成少数关键判断、少数动作和少数原则。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{human-ai-context-window.png}
\caption{人类上下文 vs AI 上下文：人更适合做减法，AI 更适合处理大规模信息。自制概念图，依据 00:02:35--00:04:10 对谈内容整理。}
\end{figure}

读图：上下文窗口不是越大越像 CEO

大模型可以吞吐很多 token，但 CEO 的价值常常在于压缩：把复杂信息变成战略、组织和行动。反过来，AI 如果只停留在“知道很多”，没有连接工具、行动和反馈，也不能产生真实价值。

工具三级：信息工具、辅助工具、生产工具

上一节把人类与 AI 的上下文能力区分开，本节进一步追问：这种能力差异怎样变成产品价值。李想把工具分成三个层级。信息工具让人查到信息；辅助工具提高人的效率；生产工具则直接产生可付费的生产力。这个分类很重要，因为它给 AI 产品估值提供了一个更硬的标准：不是能不能回答，而是用户是否愿意为它付钱，是否愿意把真实工作交给它。

生产工具的判别标准

如果一个 AI 工具只让人“觉得聪明”，它仍然可能只是信息工具；如果它能替代或解放人的高频真实工作，并且用户愿意为结果付钱，它才开始进入生产工具层级。

DeepSeek：极简地运用最佳实践

接下来，访谈转向 DeepSeek。李想从 DeepSeek 学到的不是某个单点技巧，而是“极简地运用人类最佳实践”：先做研究，再做研发，再转化为业务；如果是业绩差距，就调整策略；如果是能力差距，就回到能力建设。这种路线看起来朴素，但很反人性，因为它要求组织不断承认自己能力不足，而不是只靠业务动作硬推。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{deepseek-best-practice.png}
\caption{从 DeepSeek 学到的最佳实践：极简地使用人类最佳实践，再把组织和工程压实。自制概念图，依据 00:15:01--00:19:10 对谈内容整理。}
\end{figure}

读图：DeepSeek 被当作组织案例而不只是模型案例

图里从 MoE 到实践的顺序，表达的是一套组织学习路径：先研究问题，再构建能力，再工程验证，最后让能力变成业务结果。李想关心 DeepSeek，是因为它展示了小团队、高密度人才、开源和工程实践如何形成合力。

“最佳实践”并不自动产生最佳结果

最佳实践往往反人性，因为它要求慢下来做研究、做能力、做复盘。随心所欲更满足人性，但容易把问题误判成短期策略问题，而忽略真正的能力缺口。

为什么还要自研基座能力

访谈里有一个细节：理想内部也担心“用开源模型会不会伤害自研团队”。李想的回答是，开源语言模型可以成为一个基础，但理想要做的是基于业务场景发展出自己的 VLA、Agent OS 和物理世界能力。这里的核心不是“开源还是自研”的二选一，而是开源底座如何被嵌入公司自己的数据、任务、工具链和场景里。

开源模型与公司能力的关系

Linux 可以开源，但安卓仍然形成了自己的组件、API、生态和产品体验。同理，语言模型可以开源，车企仍然需要围绕车、机器人、数据和用户场景构建自己的系统能力。

本章小结

开场章节给整期定了基调：AI 不只是大上下文和大参数，而是怎样把信息处理能力变成行动能力。DeepSeek 被讨论，是因为它把研究、工程和组织压缩成了一条可学习的方法论。

技术专家一：VLA 是物理世界的 Driver OS

上一章讲 AI 产品和组织方法，本章进入技术专家通道。张小珺调用“CEO 大模型的技术专家”，让李想讲 VLA。VLA 即 Vision-Language-Action：Vision 负责感知物理世界，Language 负责理解规则、意图和知识，Action 负责输出动作。对理想而言，VLA 不是抽象多模态玩具，而是“司机大模型”，也是汽车和交通领域更重要的大模型或操作系统。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.86\textwidth]{vla-driver-os-stack.png}
\caption{VLA 司机操作系统：Vision、Language、Action 组合成物理世界的驾驶大模型。自制概念图，依据 00:36:18--00:42:30 对谈内容整理。}
\end{figure}

读图：VLA 的三层不是并列名词

Vision 解决“看见”，Language 解决“理解”，Action 解决“做”。自动驾驶真正难的是把三者放到一个可训练、可评测、可部署的闭环里，而不是分别把视觉模型、语言模型和控制器拼在一起。

从规则算法到端到端，再到 VLA

李想把智能驾驶的演化描述为进化过程，而不是突变。早期是规则算法，之后是端到端加 VLM，现在进入 VLA 阶段。这里的关键变化是，系统不再只是“看懂”和“规划”，而是要把动作输出纳入学习。VLA 的目标不是让车学会讲道理，而是让车在真实道路上做出更像人、更稳定、更安全的驾驶动作。

VLA 的技术定义

VLA 是把视觉输入、语言/知识表示和动作输出放入统一训练与推理链路的模型。对自动驾驶而言，它的输出不是文本，而是车辆行为；因此它的评测也不能只看回答质量，而要看安全、舒适、规则遵守和目的达成。

32B 云端机座与车端部署

访谈提到，理想正在训练 32B 的云端 VL 机座模型。云端模型负责吃更大数据、更大参数和更复杂训练；车端模型则受限于算力、延迟和安全要求，需要通过蒸馏、部署和验证进入车辆。这个结构和前面 EP120 小鹏谈到的云端模型工厂相互呼应：物理世界 AI 往往不是“一个模型上车”，而是“云端训练、端侧压缩、真实验证”的系统工程。

术语消化：VLA 训练链路

环节	作用	风险与约束
VL 机座	让模型理解视觉和语言	需要大规模多模态数据和算力。
Action 训练	把理解转为控制动作	输出直接影响安全和体验。
世界模型数据	提供可控训练和测试场景	仿真与真实世界之间仍有差距。
端侧模型	在车端实时运行	算力、延迟、功耗和法规约束更强。
道路验证	判断实际能力	验证成本高，长尾场景难覆盖。

本章小结

VLA 在这期里不是流行词，而是一种产品系统：它要从云端机座、世界模型、动作训练、端侧部署到道路验证全部打通。只有这样，AI 才能从“回答问题”进入“驾驶车辆”。

技术专家二：世界模型、强化反馈与交通闭环

上一章讲 VLA 是什么，本章解释它如何训练和验证。李想提到，理想会使用世界模型生成数据来训练，让模型从 A 点开到 B 点，并用舒适性、碰撞、交通规则等反馈判断结果。这里可以看到一个很明确的模式：真实车队提供数据，世界模型生成和考试，VLA 在数据和反馈中更新，最后再部署回车辆。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{world-model-loop.png}
\caption{交通世界模型闭环：真实驾驶数据、仿真生成和 VLA 训练互相推动。自制概念图，依据 00:47:30--00:48:10 与 01:10:06--01:10:48 对谈内容整理。}
\end{figure}

读图：世界模型有三种角色

第一，它可以当考试系统，测试 VLA 在不同交通场景中的表现。第二，它可以生成训练数据，覆盖真实道路中难以高频采集的场景。第三，它未来可能成为无人车运营系统的一部分，帮助没有司机的车辆理解和预测交通世界。

世界模型不是“画面生成器”

在自动驾驶语境里，世界模型不只是生成漂亮视频。它必须对动作后果敏感：如果车辆变道、加速、避让或等待，交通世界会怎样演化。它还要对安全和规则敏感：碰撞、急刹、闯灯、压线、插队、舒适性都不只是视觉问题，而是任务结果问题。

世界模型的最小公式

可以把交通世界模型粗略写成：

\[ s_{t+1} = f(s_t, a_t, c_t). \]

其中，\(s_t\) 表示当前交通状态，\(a_t\) 表示车辆动作，\(c_t\) 表示场景约束和规则，\(s_{t+1}\) 表示下一时刻状态。真正难的是让 \(f\) 对真实道路的长尾场景足够可靠。

验证成本与模型规模

李想提到验证成本从每一万公里 18 万降到 4000 元，这说明 VLA/世界模型路线不只是模型能力问题，也会改变验证经济学。自动驾驶如果只能靠真实道路堆里程，成本会非常高；世界模型和仿真可以降低某些测试成本，但最终仍需要真实世界验证兜底。

仿真不能直接替代真实世界

世界模型可以降低探索和验证成本，但不能把真实世界完全替换掉。仿真中没有覆盖的长尾行为、传感器噪声、道路施工、极端天气和人的非理性动作，仍然可能在真实道路中出现。

L3、L4 与车端算力上限

前面讨论了世界模型如何降低训练和验证成本，本节把问题落到自动驾驶等级与端侧约束。访谈中，李想把 L3/L4 能力和云端、端侧模型规模联系起来。他认为当前一代算力大致对应 L3 能力，L4 还需要更多能力和更多条件。这个判断的教育意义在于：自动驾驶等级不是单纯软件开关，而是模型规模、端侧算力、验证体系、法规和运营责任共同决定。

术语消化：L3 与 L4

L3 通常意味着在特定条件下系统可以承担驾驶任务，但需要人类在系统请求时接管；L4 则意味着系统可在限定运营设计域内不依赖人类接管。二者的差别不仅是模型分数，更是责任边界、冗余设计、法规和运营系统的差别。

本章小结

世界模型把 VLA 从“会开车的模型”推进为“可训练、可考试、可运营的系统”。它降低验证成本，但不能消除真实世界的不确定性；它提高上限，但也要求更强的算力、数据和安全体系。

从回答到行动：Agent OS 与对齐要求

本章把自动驾驶问题推广到 Agent。李想认为，五年内未必会有通用 Agent，但会有 Agent OS。这个判断的含义是：不同专业工种需要不同 Agent，但这些 Agent 需要共同运行在一个操作系统式底座里，获得工具、权限、上下文、虚拟机、记忆和安全边界。Agent OS 不是一个聊天窗口，而是专业 Agent 的基础设施。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{action-agent-alignment.png}
\caption{从回答到行动：AI 进入资产、工具和车辆时，对齐要求会变高。自制概念图，依据 00:53:58--00:55:00 与 00:55:00--00:55:25 对谈内容整理。}
\end{figure}

读图：行动会放大风险

信息检索错了，可以重搜；研究错了，可以复核；但如果 Agent 调用资产、工具、电脑、车辆或财产，错误会直接改变世界。因此 Agent 的对齐要求、权限边界和可追责性都比聊天模型更高。

为什么通用 Agent 不如专业 Agent

李想认为，真实生产工具要替代和解放人类的高频工作，例如开车、编程、运营、销售或制造。不同工种有不同数据、工具、权限、错误代价和评价标准，因此短期更可能出现专业 Agent，而不是一个全能 Agent。Agent OS 的价值在于，为这些专业 Agent 提供共同运行环境。

Agent OS 的定义

Agent OS 是让专业 Agent 运行的基础系统。它至少包括上下文管理、工具调用、权限控制、虚拟机或执行环境、记忆、日志、评测和安全策略。它的价值不在于“什么都能做”，而在于让不同专业 Agent 能可靠地做事。

对齐从语言问题变成行动问题

当 AI 只是回答问题时，对齐主要是内容安全、事实准确和价值偏好；当 AI 开始调用工具和资产，对齐变成操作风险。比如一个驾驶 Agent 的错误会影响道路安全；一个财务 Agent 的错误会影响资金；一个代码 Agent 的错误会影响系统稳定。对齐因此从“模型说得对不对”扩展到“模型做得可不可控”。

对齐需求的粗略分层

\[ \text{risk} \approx \text{action scope} \times \text{asset value} \times \text{irreversibility}. \]

其中，\(\text{action scope}\) 表示 Agent 能操作的范围，\(\text{asset value}\) 表示被调用资产的价值，\(\text{irreversibility}\) 表示错误是否容易撤销。越接近车、钱、账号、生产系统和物理设备，对齐要求越高。

本章小结

Agent OS 是这期从自动驾驶推到通用 AI 产品的关键桥梁。它说明 AI 的下一步不是更会聊天，而是更会在有权限、有工具、有责任的环境里行动。

战略专家一：规模、用户需求、技术产品、组织能力

上一章讲行动系统，本章进入战略专家通道。李想谈 2025 雁栖湖战略会时，把战略放进一个四变量框架：中间是规模，外面是用户需求、技术产品和组织能力。规模不是单纯收入数字，而是会改变用户结构、产品复杂度、组织协作方式和外部竞争格局。公司从百亿收入到千亿收入，再往更高规模走，必须重新学习行业最佳实践。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{org-as-moe.png}
\caption{组织也像 MoE：CEO 调度专家、方法论、年轻人才和反馈回路。自制概念图，依据 01:25:36--02:03:20 对谈内容整理。}
\end{figure}

读图：组织不是人数堆叠，而是专家调度

技术、产品、战略、校招、方法论和反馈共同构成组织能力。组织像 MoE，是因为不同专家能力要被正确调度；如果路由错误，再多专家也会互相抵消。

从丰田、GM、Google、华为到自己的方法论

上一段把组织看成专家调度系统，本节回到这个系统如何形成。理想早期学习丰田工作法、GM 研发流程、Google OKR，后来又研究华为和苹果。这些学习不是复制，而是在不同规模阶段寻找可迁移的方法。理想 ONE 阶段需要交付；千亿收入阶段需要人才密度、组织协同和平台能力；AGI 时代终端阶段则需要模型、操作系统、硬件和生态。

方法论不能当作宗教

学习丰田、Google、华为或苹果，不等于照搬某个组织口号。方法论必须服务当前规模、产品阶段和能力缺口。公司规模变了，用户需求和组织形态也会变，旧方法可能从资产变成负担。

小组织与高密度人才

如果方法论决定协作方式，那么接下来的问题就是谁来执行这些方法论。李想多次提到小团队、高密度人才和校招占比。AI 时代的一个可能变化是，更多小组织通过模型、工具和方法论获得更强脑力与心力，而不是靠人数线性扩张。DeepSeek 的例子也被用来说明：团队不一定大，但必须高密度、方向统一、工程闭环强。

组织能力的四个层次

第一层是人才密度：人是否足够强。第二层是方法论：强人是否用同一套语言协作。第三层是反馈：真实业务和用户是否不断校正判断。第四层是能量：团队是否愿意持续承受困难任务。

本章小结

战略专家通道把理想放在规模变化中理解。公司不是从 A 点线性走到 B 点，而是每跨过一个规模台阶，都要重新配置用户需求、技术产品和组织能力。

战略专家二：AGI 时代的终端与下一代苹果

本章讨论访谈中最宏大的战略想象：理想是否能成为 AGI 时代的苹果。李想把 AGI 时代终端定义为具备四类能力：360 度感知物理世界、认知决策、Action、反思反馈。这个定义把“终端”从屏幕设备扩展到物理世界入口：车可以是终端，机器人也可以是终端，家庭设备和工厂设备也可能成为终端。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{agi-era-apple-route.png}
\caption{AGI 时代的苹果路线：车、机器人、操作系统和模型能力共同构成入口。自制概念图，依据 01:38:20--01:46:40 与 02:09:16--02:09:21 对谈内容整理。}
\end{figure}

读图：车不是唯一终点，而是物理入口

图中的车、VLA、机器人、操作系统和 AGI Apple 不是线性口号。车是现有最大规模物理入口，VLA 是驾驶大脑，机器人扩展到家庭和工厂，操作系统连接软件和工具，最终才可能形成下一代平台。

软件能力：操作系统、虚拟机和工具

上一节把车和机器人放进下一代平台想象，本节先拆软件底座。李想认为，AGI 时代终端需要不同的软件能力。第一，要有操作系统能力，能让 AI 在物理和数字世界中稳定运行。第二，要有虚拟机或执行环境能力，让 Agent 在本地电脑、云端和设备之间运行。第三，要有工具生态，因为 Agent 需要调用工具，而工具本身也会为 AI 重新设计。

为什么操作系统重新变重要

当 AI 只是应用时，操作系统像背景；当 AI 要持续观察、调用工具、控制设备、记录状态并执行动作时，操作系统就变成安全、性能、权限和生态的核心。

硬件能力：感知、算力和本体

软件底座解决“怎样运行”，本节转向“运行在什么身体上”。AGI 终端也需要硬件能力。车有传感器、算力、能源、空间和移动能力；机器人有本体、执行器、触觉和工厂/家庭场景；家庭设备可能需要统一感知和统一大脑。访谈里李想没有把机器人路线说成唯一答案，而是承认两种可能：人形机器人可以用人类工具，也可以改造工具和环境，让非人形设备完成任务。

机器人路线的两种想象

路线	优势	难点
人形机器人	适配人类现有工具和空间	本体复杂、成本高、控制难。
改造环境/工具	更容易在单任务中做到高可靠	需要重新设计家庭、工厂或设备生态。
统一大脑	可复用模型、记忆和任务理解	不同本体之间动作空间差异大。

销量与 AI 价值的错位

市场现在仍主要用销量看理想，因为 AI 能力带来的云服务价值、软件价值和平台价值还没有充分表现出来。这个错位并不罕见：在平台转型早期，外部常常先用旧指标评价新能力。真正的拐点会出现在 AI 能力能改善体验、降低成本、带来收入或打开新终端形态时。

“成为苹果”不是品牌比喻，而是平台比喻

如果只把苹果理解为高端品牌，就会误读这段讨论。李想谈的是平台能力：硬件、操作系统、开发生态、用户入口、工具链和商业模式。车企要成为 AGI 时代的苹果，必须证明自己不只是卖车。

本章小结

AGI 时代终端的想象把理想的战略从汽车扩展到平台。车是入口，VLA 是能力，Agent OS 是软件层，机器人是延伸，本质问题是公司能否把物理世界入口变成智能平台。

组织与人：反人性、顺人性与共同大脑

上一章讲平台，本章回到组织。李想反复提到“顺着人性去说，逆着人性去做”。这句话容易被理解成管理技巧，但在访谈语境里，它指向组织变革的困难：最佳实践、能力建设、长期主义、复盘和自我否定往往反人性；而随心所欲、短期逃避、自我合理化更顺人性。一个组织如果要持续进化，就必须设计一种既理解人性、又能推动反人性成长的机制。

反人性不是压抑人，而是对抗惰性

当李想说“反人性”，他强调的是对抗懒惰、逃避和短期舒适，而不是否定人的感受。优秀组织必须顺着人的表达和尊严去沟通，但在能力建设和结果要求上不能放任。

三到七个人的共同大脑和共同心脏

上一节说明组织要理解人性但不能纵容惰性，本节看李想给出的具体组织单元。访谈后半程，他谈到一种模式：三到七个人组成更强的大脑、更强的心脏和更强的能量。这不是普通小组讨论，而是把能力互补、情绪能量、责任共担和方法论统一放在一起。一个人很有能力但没有结果，可能是因为缺少这种共同结构。

共同大脑的四个条件

第一，成员彼此互补，而不是互相复制。第二，有共同目标和方法论。第三，关系足够近，能够真实反馈。第四，团队有共同承担压力的能量，而不只是分工表。

在意用户与在意身边的人

李想把人和人连接的本质归纳为两个“在意”：在意用户，在意身边的人。在意用户是价值观共识，在意身边的人则是协作基础。一个组织如果只讲事情、不讲人，很容易把关系消耗掉；如果只讲关系、不讲用户，又会失去结果。优秀组织要在两者之间保持张力。

“对事不对人”有时会掩盖真实问题

工程组织常说对事不对人，这能避免情绪化攻击。但如果完全不看人，就会忽略人的成长、动机、能量和关系质量。李想这里强调“先对人再做事”，是提醒组织问题最终要落到人是否变强。

本章小结

组织能力不是流程图，而是人如何在长期压力中共同成长。AI 时代的小组织可能更强，但前提是它有共同大脑、共同心脏、共同方法论和共同能量。

能量、亲密关系与记忆程序

上一章把组织理解为共同大脑和共同心脏，本章进入更底层的能量来源。本节先看访谈里最不像技术、但最能解释李想方法论的一部分：能量来自成长、来自亲密关系、来自被需要和需要别人。他说自己需要孩子、爱人和一级部门负责人，甚至他们对自己的重要性超过自己对他们的重要性。这种表达不是情感鸡汤，而是把关系看成一种反馈系统：亲密关系让人看到自己的不足，也让人持续变好。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{energy-relationship-loop.png}
\caption{能量与亲密关系：关系不是消耗项，而是让人变得更好的反馈系统。自制概念图，依据 02:09:26--02:28:20 对谈内容整理。}
\end{figure}

读图：能量不是兴奋感，而是持续反馈

需求、连接、反馈、能量和成长形成循环。亲密关系之所以重要，是因为它能提供真实反馈；真实反馈会暴露不足；接受不足并变好，才会产生持续能量。

亲密关系的边界

前面强调亲密关系会带来能量，本节补上同样重要的边界条件。李想也强调，不要构建太多亲密关系。亲密关系不是泛泛社交，而是直系亲属、少数多年朋友、以及工作中一起扛责任的人。能带来伤害的，往往也只有亲密关系，因为它真正进入了人的需求和脆弱处。这个观点可以迁移到组织：高质量关系有能量，低质量关系会消耗能量。

亲密关系的定义

亲密关系不是聊天频率高，也不是社交关系近，而是彼此能真实需要、真实反馈、共同承担后果，并在长期中让对方变好。

记忆程序：如果可以修改一段人生代码

访谈里还出现了“记忆程序”的问题：如果能删除或修改记忆，会选择什么。李想的回答并不把痛苦记忆简单视为坏事，因为很多记忆塑造了今天的方法论、关系和判断。这里可以把“记忆”理解为人的训练数据：它不只是存档，也是行为策略和价值判断的来源。

记忆作为人的训练数据

AI 模型通过数据形成参数，人则通过记忆、关系和行动形成方法论。删除痛苦记忆看似降低损耗，但也可能删除能力来源。重要的是把记忆消化成方法，而不是被记忆反复触发。

本章小结

能量和亲密关系不是访谈里的“人文插曲”，而是李想理解组织和智慧的底层变量。没有能量，方法论无法长期执行；没有真实关系，人很难看见自己的盲区。

智慧是我们和万物的关系

本章收束到访谈后半程的核心定义：智慧就是我们和万物的关系。这个定义很特别，因为它没有把智慧理解为 IQ、知识量或推理分数，而是理解为人与人、人与物、人与组织、人与技术、人与世界的关系质量。AI 的意义也因此不只是替代人，而是把人从低价值、耗能的动作里解放出来，让人有更多能量去处理更高质量的关系。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{wisdom-relation-map.png}
\caption{智慧是关系：智慧来自与人、物、组织、技术和世界持续接触。自制概念图，依据 02:26:47--02:31:10 对谈内容整理。}
\end{figure}

读图：智慧不是脑内分数

人、物、组织、技术和世界共同构成智慧的来源。一个人如果只在脑内推理，而不接触真实人和真实事，智慧会变薄；一个 AI 如果只在 token 里循环，而不进入行动和反馈，也难以形成真实价值。

AI 的意义：减少消耗性动作

上一段把智慧定义为关系，本节转向 AI 如何改变这些关系中的动作分配。李想举销售人员的例子：好的销售和产品专家喜欢与客户接触，因为那能带来能量；但重复邀约、低价值流程、机械沟通可能消耗能量。AI 的价值之一，是自动化这些消耗性动作，让人把能量放在更有智慧、更有关系质量的事情上。

AI 与人的关系

AI 不只是替代劳动，更是重新分配人的能量。真正好的 AI 系统应该减少低价值、重复、耗能的动作，同时保留或增强人与客户、产品、组织和世界的高质量接触。

从套壳到基础能力

如果 AI 的意义在于承担更多 action，那么最后就必须回到基础能力问题。在结尾处，李想谈到对“小红”等 Agent 应用的看法。他认为把 AI 往真正 action、专业 action 和 to-do list 方向推进，是重要尝试；但如果对手都是强模型公司，仅靠套壳、虚拟机和工具能力不够，必要的模型能力还是要真正训练。这段话给 AI 应用创业一个很清楚的提醒：入口、流程和产品体验可以先跑，但最终要补基础能力。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{shell-vs-model-ability.png}
\caption{套壳与模型能力：应用创新要走向 action，最终仍要补基础能力。自制概念图，依据 02:44:21--02:45:30 对谈内容整理。}
\end{figure}

读图：套壳不是没价值，但不能停在那里

左边的套壳/工具能快速验证用户需求和工作流，右边的基础能力决定长期上限。Agent 应用如果想进入专业 action，就必须逐步补模型、记忆、工具调用、评测和可靠性。

不要把“套壳不是创新”理解成反应用

应用创新非常重要，因为它最接近用户和行动场景。但当场景进入高价值、强对齐、高可靠任务时，只靠外部模型和薄工作流会遇到上限，基础能力必须跟上。

本章小结

“智慧是关系”把整期从技术重新拉回人。VLA、Agent OS、世界模型和组织方法论最终都不是为了炫技，而是为了让智能更好地进入人与世界的关系中。

总结与延伸

本节把整期访谈压缩成几个可复用结论。第一，AI 产品从信息工具走向生产工具，关键是 action：能不能替代和解放真实工作，能不能进入工具、资产、车辆和设备。第二，物理世界 AI 的核心不是单模型，而是 VLA、世界模型、端侧算力、验证系统和法规责任组成的闭环。第三，AGI 时代终端不只是手机或车，而是能感知物理世界、做认知决策、执行动作并反思反馈的平台。第四，组织能力在 AI 时代反而更重要，因为模型降低了某些执行成本，却提高了判断、方法论和人才密度的重要性。第五，人类智慧不只是认知能力，而是关系能力。

把 EP118 放进张小珺 AI 访谈队列

EP120 讲小鹏如何把自动驾驶转向 Physical AI，EP121 讲 DeepMind 机器人与世界模型，EP119 讲 Attention 架构考古；EP118 则把这些技术线拉进一家公司的 CEO 视角：模型如何成为终端，终端如何成为平台，平台如何反过来要求组织和人改变。

技术 takeaways

VLA 的重点不是多模态标签，而是把视觉、语言和动作放入统一训练与验证闭环。
World Model 的价值不只是生成数据，还在于考试、验证和未来运营。
Agent OS 比通用 Agent 更像短期可落地路线，因为真实工作需要专业工具、权限和安全边界。
当 AI 进入 action，风险从内容错误升级为资产、工具和物理世界错误。
应用层可以先跑，但长期必须补模型、记忆、评测和执行可靠性。

管理 takeaways

最佳实践常常反人性，组织必须设计机制来对抗短期舒服。
小团队可以很强，但前提是人才密度高、目标一致、方法论统一、反馈真实。
规模变化会改变用户需求、技术产品和组织能力，不能用旧阶段方法解决新阶段问题。
亲密关系和能量不是软话题，它们决定一个人和组织能否长期承受复杂任务。
智慧可以理解为关系质量：人与人、人与物、人与技术、人与世界的关系越真实，判断越厚。

拓展阅读

继续对照 EP120 小鹏刘先明访谈，可比较不同车企对 Physical AI、VLA、云端模型工厂和端侧部署的表达差异。
继续对照 EP119 Attention 架构综述，可看到模型基础架构如何影响长上下文、Agent 和物理世界 AI 的推理成本。
继续对照 EP121 DeepMind 谭捷访谈，可把 VLA 和世界模型放进机器人跨本体、动作数据和真实部署问题中理解。