Ep104 Qw Kgogqwjc
\begingroup
\setlength{\parskip}{0pt} \renewcommand{\baselinestretch}{0.92}\selectfont
\endgroup
导读:AI 软件能力如何外溢到硬件
本节先建立整期的学习目标。Rokid 这期不是一篇单纯的创业口述史,而是一个关于“AI 下一代硬件入口”的案例。祝铭明从第一家公司被阿里收购、在阿里参与 M Lab,到第二次创业做 Rokid,经历了移动互联网、AI 音箱、AR 眼镜和大模型四个周期。读这期时,重点不是记住哪一年融资,而是理解一个硬件创业者如何判断入口、平台、供应链、组织和巨头竞争。
张小珺在开场说,随着 AI 软件能力向硬件溢出,除了具身智能,智能眼镜可能是另一个受益产业。这个判断把 EP104 放进了张小珺 AI/互联网队列:它不是纯消费电子访谈,而是在讨论 AI 的能力如何从云端、手机和语音产品,进入一个 always-on 的随身设备。
本期核心命题
智能眼镜的机会不只是“把 AI 放进眼镜”,而是重新定义个人信息入口。Rokid 的判断是:AI 需要一个随时随地、信息直达、具备显示能力的载体;手机仍会存在,但碎片化交互可能逐步转移到眼镜。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{ai-to-hardware-spillover.png}
\caption{AI 软件能力外溢到硬件:从云端模型到随身智能和具身智能。自制概念图,依据 00:01:12--00:02:00 与 01:11:52--01:13:05 对谈内容整理。}
\end{figure}
读图:具身智能和随身智能是两条硬件化路径
图中 AI Model 向 Device 外溢,分出 Wearable 和 Embodied 两类。具身智能强调机器人在物理世界行动,随身智能强调个人随时调用 AI。智能眼镜处在后者:它的关键是入口效率、显示和佩戴,而不是机械执行。
视觉策略说明
本视频是固定访谈画面,没有 slides、白板或产品演示。正文只使用封面作为来源识别,正文图像全部为自制概念图,用来解释创业时间线、AI/AR 转向、硬件黑森林、智能眼镜阶段和中美产品定义差异。
阅读路线:把创业史当作入口判断课
本节进一步给出读法。访谈里有大量人名、融资、产品和年份,如果逐条记忆,很容易把它读成一篇“创始人故事”。更有价值的读法,是把每段故事都放回一个判断框架:当一个新硬件要成为入口时,它到底要满足哪些条件;当一个产品只是在风口上时,又有哪些信号说明它只是产品而不是平台。
课堂提示:本期不是眼镜参数评测
讲者反复回到的不是某个参数,而是“入口”这个抽象判断:使用时长、输入输出宽度、碎片化频次、佩戴自然度、显示能力、生态位置和供应链可交付性。参数只是在服务这些判断,不能反过来替代判断。
| 阅读问题 | 在访谈中的材料 | 要形成的判断 |
|---|---|---|
| 入口从哪里来 | iPhone、移动 OS、AI 音箱、智能眼镜 | 入口切换通常发生在硬件形态和软件能力同时变化时。 |
| 平台何时成立 | 两小时日均使用、开发者、企业用户、内容生态 | 平台不是公司自称,而是使用频率和生态供给共同形成。 |
| 为什么要显示 | 翻译、提示、信息扫描、低置信度中间结果 | 显示把 AI 输出从串行声音变成可视、可修正的界面。 |
| 创业公司怎么活 | 四个不、时间窗口、广积粮高筑墙、多交朋友 | 早期窗口靠速度,长期竞争靠产品、生态和资本耐心。 |
本章小结
EP104 的主线是:AI 能力成熟后,硬件入口会重新排序。Rokid 的样本价值在于,它用十多年硬件创业成本,解释为什么智能眼镜可能成为随身 AI 入口。后面的章节会先讲这套入口判断从哪里来,再讲为什么音箱被放弃、眼镜被坚持、巨头竞争如何到来,以及硬件创业为什么会被称为黑森林。
从第一家公司到阿里:移动互联网入口的前史
本节先看祝铭明的第一段创业,因为它解释了 Rokid 后来为什么总是盯着“下一代入口”。2007 年 iPhone 发布后,他判断智能机和移动互联网会成为新平台,于是做了一家移动操作系统公司,希望把类似 iPhone 的软件体系迁移到不同硬件平台。后来阿里准备进入移动互联网,需要一个基础抓手,最终以约一千万美元收购了这家公司。
这个故事的关键不是“卖给阿里”,而是三点经验。第一,入口切换往往出现在硬件和软件体系同时变化的时刻;第二,创业公司可能在最危急的时候被大公司看见;第三,平台级机会要求创始人能忍受早期极高的不确定性。祝铭明回忆,公司最糟糕时账上只有不到四千块,两周后就要发工资,甚至准备让员工把电脑搬回去抵工资。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{rokid-founder-timeline.png}
\caption{Rokid 创业时间线:从阿里收购、M Lab 到 AI/AR 硬件十一年。自制概念图,依据 00:02:36--00:31:41 对谈内容整理。}
\end{figure}
读图:第一段创业不是插曲,而是入口判断训练
图中从 First Startup 到 Alibaba,再到 M Lab 和 Rokid,展示的是同一类判断:新计算平台出现时,底层系统、入口硬件和应用生态会重新洗牌。祝铭明从移动 OS 进入阿里,再出来做 AI/AR,本质上一直在找下一代入口。
危机时刻为什么重要
本节把最早那段“账上不到四千块”的故事单独拿出来看。它不是励志段落,而是入口创业的现金流训练。祝铭明回忆,当时两周后就要发工资,甚至准备让员工把电脑搬回去抵工资;就在这个阶段,马云、蔡崇信和王坚博士把阿里收购的路径带了进来。创业公司被看见,并不总发生在最光鲜的时候,反而可能发生在方向被少数人理解、现金流已经接近极限的时候。
实践经验:方向正确不等于现金流安全
一个创业项目即使押中了下一代入口,也可能在商业化、融资或大客户出现前耗尽现金。访谈里最早的移动 OS 公司和后来的 Rokid 都说明:前沿方向需要战略耐心,但公司每天仍要面对工资、供应商、库存和团队信心。
| 事件 | 表面故事 | 教学含义 |
|---|---|---|
| 2007 年 iPhone 发布 | 创始人看到智能机方向 | 新入口出现时,旧硬件和旧软件体系都会松动。 |
| 做移动 OS | 把 iPhone 式软件体系迁移到多种机型 | 平台机会往往先表现为底层系统和兼容性问题。 |
| 阿里收购 | 一千万美元股票交易 | 巨头要进入新平台时,需要基础能力和团队。 |
| 现金流危机 | 账上钱不够发工资 | 入口判断再宏大,也必须穿过公司生存线。 |
阿里、吴妈与 M Lab
本节解释阿里经历如何影响 Rokid。祝铭明进入阿里后,一开始参与移动互联网相关业务,后来吴泳铭提出要做 AI,成立 M Lab。那时深度学习刚起步,语音识别、拍照搜索、AIoT 和智能硬件都处在早期探索阶段。阿里想做 fundamental 的东西:平台、系统、基础能力,而不只是一个单点应用。
M Lab 的经验给 Rokid 留下两个长期影响。第一,AI 不是一个孤立功能,而是会寻找硬件入口。第二,大公司可以组织资源,但在某些前沿硬件方向上,创业公司更适合用高风险、高专注来先跑。吴泳铭后来也是 Rokid 的天使投资人,这说明这段关系不只是履历背景,也影响了后续资金和判断。
术语消化:入口、平台、产品
| 概念 | 含义 | 本期中的判断 |
|---|---|---|
| 产品 | 解决一个具体需求,收入来自单品销售或服务 | AI 音箱更接近产品,不一定是平台。 |
| 入口 | 用户频繁进入数字世界的默认通道 | 手机是上一代入口,眼镜可能承担碎片化入口。 |
| 平台 | 能承载开发者、应用和生态的基础层 | 智能眼镜若有足够使用时长和开发者,才可能平台化。 |
老师强调:fundamental 的东西会改变组织边界
阿里当时吸收移动 OS 团队,是因为移动互联网需要底层抓手;吴泳铭推动 AI 和 M Lab,也是因为 AI 不能只被当作一个功能插件。Rokid 后来持续强调 OS、平台和生态,来自同一套经验:真正改变入口的技术,最后一定会触碰底层系统。
本章小结
祝铭明的阿里前史训练了两种能力:判断平台入口何时切换,以及在大公司与创业公司之间选择适合自己的组织形态。这为后来的 AI/AR 双线埋下了基础。
2019 转向:从 AI 音箱到 AR 眼镜
上一章讲 Rokid 的入口判断来源,本章进入最关键的战略转向。Rokid 从第一天起就认为 AI 和 AR 会变成一件事,但早期 AR 硬件太重、太怪、无法产品化,于是先用 AI 消费硬件和智能音箱训练语音、供应链、生产、销售和用户反馈能力。2019 年,当大厂以补贴和平台逻辑进入智能音箱,Rokid 判断音箱不可能成为真正入口,于是一周内从 AI 赛道切换到 AR 赛道。
这个转向很痛苦,但不是突然改方向。祝铭明强调,内部一直是 AI 和 AR 两条腿并行,只是原来 AI 产品线可以以战养战;当音箱竞争变成不健康烧钱,继续投入就不再合理。Rokid 要做的是未来战争,而不是在一个不属于自己的平台战场上消耗现金。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{ar-pivot-decision.png}
\caption{2019:从 AI 音箱转向 AR,一周内切换赛道,代价是组织重构。自制概念图,依据 00:31:41--00:59:17 对谈内容整理。}
\end{figure}
读图:不是 AI 放弃,而是载体切换
左侧 AI 音箱是相对成熟的语音产品,能训练团队,但输入输出窄、场景不碎片、平台属性弱。右侧 AR 眼镜更难,但更接近随身 AI 入口。Rokid 的转向是从短期可做的产品,切到长期更大的入口。
两条腿并行:AI 产品线与 AR 实验室
本节补上一个容易被误读的细节。祝铭明说,Rokid 不是突然从 AI 改做 AR,而是从一开始就把 AI 和 AR 看成会合流的一件事。早期 AR 太重、太像实验装置,没法成为大众产品;但 NLP、ASR、TTS 等语音技术已经可以产品化,于是 AI 硬件先承担两个任务:一是让公司和市场保持接触,二是训练硬件供应链、生产、销售和用户反馈能力。
这也是“以战养战”的真正含义。音箱不是最终平台,但它能让一个软件/系统出身的团队学会做硬件。祝铭明提到,2014 到 2016 年其实是在交硬件学费:产品定义、定价、供应链、消费市场接受度都要被市场检验。Rokid 早期的 Alien 陪伴机器人很酷,但过于超前;最后被简化成音箱,门槛也随之降低,巨头补贴进入后,创业公司继续烧钱就不再合理。
| 路线 | 当时的作用 | 后来的问题或价值 |
|---|---|---|
| Alien 陪伴机器人 | 把摄像头、表情、语音和陪伴放进一个产品 | 概念超前,但价格和消费市场接受度不足。 |
| AI 音箱 | 训练语音产品、生产、销售和供应链 | 门槛降低后进入补贴竞争,平台属性不足。 |
| AR Lab | 长期预研光波导、微显示、成像等技术 | 让 2019 转向不是从零开始。 |
| 智能眼镜 | 重新承载随身 AI 入口假设 | 更难,但平台上限更高。 |
课堂提示:先做产品不等于放弃平台理想
Rokid 先做音箱,是因为语音 AI 更早能落地;它后来放弃音箱,是因为音箱无法支撑平台假设。这个顺序说明,创业公司的阶段性产品可以服务长期能力建设,但不能反过来绑架长期方向。
音箱为什么不是入口
本节把音箱的失败逻辑讲清楚。祝铭明认为,入口产品需要足够宽的输入输出通道、足够多的使用场景和足够高的碎片化频次。音箱的通道窄,主要是读书、音乐、简单问答;场景也被限制在客厅和卧室,用户醒着的大部分时间并不在这些固定场景。它可以是一个不错的产品,但很难成为手机级入口。
大公司把智能音箱当平台做,补贴、烧钱、争生态,这对创业公司不利。Rokid 不把音箱视为平台,所以果断退出。这个判断很重要:创业公司不能只看“市场热不热”,还要判断这个热度是不是符合自己的平台假设。
平台幻觉
一个产品有 AI、有语音、有硬件,不代表它是平台。平台必须有高频入口、足够宽的信息通道、可持续生态和用户默认使用习惯。缺少这些条件,烧钱也可能只是在放大一个普通产品。
入口判断清单
| 判断项 | 音箱的问题 | 眼镜的可能性 |
|---|---|---|
| 输入输出宽度 | 主要依赖语音,输出也偏串行 | 语音、视觉、显示和环境感知可以叠加。 |
| 碎片化频次 | 固定在卧室、客厅等有限场景 | 戴在身上,可覆盖路上、店里、会议、旅行。 |
| 替代手机路径 | 许多任务手机已经足够方便 | 看时间、扫码、翻译、通知等短任务可缩短路径。 |
| 生态空间 | 内容类型集中在音乐、读书和问答 | 若使用时长和显示成立,应用生态更宽。 |
| 创业公司优势 | 巨头可以补贴和铺量 | 前沿工艺和产品定义尚未标准化。 |
裁员与组织重构
本节从产品判断进入组织代价。战略转向的代价是组织重构。Rokid 当时有两栋楼,一栋做音箱,一栋做 AR;转型后音箱楼基本清空,裁掉超过一半的人。祝铭明强调痛苦不在方向判断本身,而在于许多优秀员工因为方向变化被迫离开。公司当时给出 N+1,并留下未来 AR 跑顺后优先回来的口子。
这段对硬件创业很有启发。软件产品转向可以更轻,硬件产品线转向往往牵动供应链、团队技能、库存、生产计划和现金流。Rokid 能转过去,是因为账上还有钱、投资人理解长期方向、AR Lab 已经提前跑了几年。如果等现金彻底耗尽,转型窗口就会消失。
转型窗口
硬件公司做大转向,必须在现金还足够、团队还有能力、下一条路线已有预研时启动。等产品线彻底失败再转,组织、供应链和投资人信心通常已经不足。
疫情中的第一次 PMF
接下来要看的是转型后的偶然性和必然性。Rokid 2019 年 10 月做调整,2020 年 1 月中旬召开眼镜产品招商会;几天后疫情爆发,线下流动被限制。由于眼镜可以配合红外传感做非接触测温,第一代较重的 B 端产品反而迅速产业化,卖到多个国家。祝铭明没有把这称为“感谢疫情”,但承认它客观上加速了产品、供应链和收入曲线。
这段最有价值的地方,是区分 PMF 与运气。疫情是外部事件,Rokid 无法预测;但如果 2019 年没有提前切到 AR、没有提前开招商会、没有供应链准备,就无法接住这个事件。硬件创业的 PMF 往往不是一个纯粹的产品灵感,而是路线、时点、供应链和场景突然对齐。
实践经验:偶然性需要被准备接住
祝铭明说,如果招商会再晚五天,结果可能完全不同。这不是鼓励迷信时间点,而是提醒:前沿硬件公司要在窗口打开前完成足够多的准备。机会出现时,能不能交付往往比能不能讲故事更关键。
本章小结
Rokid 的 2019 转向不是从 AI 到非 AI,而是从“语音 AI 产品”转向“AI 的随身入口”。这次转向训练了公司对平台属性、供应链和组织代价的判断,也说明硬件转型要在资金、预研、组织和外部时点之间找到窗口。
智能眼镜为什么可能成为入口
上一章说明 Rokid 为什么离开音箱,本节解释它为什么押注眼镜。祝铭明认为,AI 真正有价值的使用方式是随时随地、碎片化、always on。手机虽然强,但仍有一套解锁、打开 app、进入功能的 GUI 路径;智能眼镜如果一直戴着,就可以把许多短任务变成“所要即所得”:看时间、收信息、扫码、翻译、识别对象、查询背景,都不需要掏手机。
这不是说手机会马上消失,而是交互频率会重分配。手机可能保留通信、重任务、复杂输入和大屏操作;眼镜会先接管大量五分钟以内的碎片交互。祝铭明给出的判断是:对已经戴眼镜的人群而言,眼镜加 AI 可能在三到五年内成为普及性东西;对不愿意戴眼镜的人,不要强行说服,而是等能力差距足够明显后再由用户选择。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{smart-glasses-stage.png}
\caption{智能眼镜阶段判断:从黑莓到 iPhone 1 之间,入口正在形成。自制概念图,依据 01:05:45--01:13:05 对谈内容整理。}
\end{figure}
读图:阶段不成熟,不等于方向不成立
图中从 Feature 到 BlackBerry、iPhone 1、Platform、Mass Market,表达的是智能眼镜还在早期入口形成阶段。今天的产品未必成熟,但如果使用时长、开发者和碎片任务迁移成立,它就有机会从功能硬件走向平台。
信息直达:把系统成本压到最低
本节把“方便”拆成可分析的交互成本。祝铭明举了扫码、查天气、看时间和看消息的例子:手机路径通常包括拿出设备、解锁、找到 app、进入功能、确认操作;眼镜如果一直佩戴,就可以直接语音唤起、视觉确认或轻触查看。几秒差异在单次任务中不大,但当任务都是五分钟以内碎片动作时,几秒会累积成入口迁移。
其中,\(T_{\text{task}}\) 表示完成一个短任务的总时间;\(T_{\text{wake}}\) 是拿出或唤醒设备的时间;\(T_{\text{path}}\) 是从系统入口走到具体功能的路径成本;\(T_{\text{input}}\) 是表达意图的时间;\(T_{\text{output}}\) 是接收结果的时间;\(T_{\text{confirm}}\) 是确认和纠错的时间。眼镜路线的核心,不是让每一项都归零,而是把 \(T_{\text{wake}}\) 和 \(T_{\text{path}}\) 压到很低,并用显示降低 \(T_{\text{output}}\) 和 \(T_{\text{confirm}}\) 的不确定性。
入口不是单次效率,而是频率乘以效率
如果一个动作每天只发生一次,节省五秒没有意义;如果通知、时间、扫码、翻译、识别、搜索每天发生几十次,路径成本就会变成入口选择。Rokid 的判断是:智能眼镜先替代大量碎片化轻任务,而不是立刻替代手机的重任务。
显示为什么重要
中美智能眼镜产品定义的核心差异之一,是是否需要显示。Rokid 认为,如果眼镜是 AI 入口,显示是必选项。以翻译为例,没有显示时,系统必须等到有足够信心再把翻译读出来,交流中会出现几秒到十秒空档;有显示时,可以边听边显示、边修正,用户能容忍早期不完全准确的中间结果。显示不是为了炫技,而是为了让 AI 输出从纯语音变成可扫描、可纠错、可并行的界面。
术语消化:AUI 与 GUI
| 交互方式 | 优势 | 限制 |
|---|---|---|
| GUI | 可见、可编辑、可扫描,适合复杂任务 | 需要路径和界面操作,系统成本高。 |
| AUI | 语音直达,适合短任务和免手操作 | 输出串行,不适合长内容和低置信度中间结果。 |
| 眼镜显示 + AI | 语音输入与视觉输出结合 | 需要佩戴舒适、续航、显示和隐私共同过线。 |
不要把显示理解成“多一个屏幕”
显示的真正价值不是把手机屏幕搬到眼前,而是改变 AI 输出的时间结构。语音输出必须串行、完整、较高置信度;视觉输出可以逐步显示、允许中间修正、让用户扫读。翻译场景之所以典型,是因为它把延迟、置信度和可纠错性同时暴露出来。
| 场景 | 无显示路径 | 有显示路径 |
|---|---|---|
| 翻译 | 等模型有足够信心后再读出,双方对话中断 | 可先显示粗译,再随上下文修正,用户可扫读。 |
| 通知 | 语音播报会打扰场景,手机查看又增加路径 | 眼前短暂提示,用户可忽略或进一步处理。 |
| 扫码/支付 | 需要打开手机、找入口、确认 | 视线对准二维码,语音或轻触确认。 |
| 识别对象 | 手机拍照或打开相机入口 | 眼镜直接利用视线方向形成查询。 |
佩戴边界:不要说服不想戴眼镜的人
本节处理一个现实反对意见:很多人不愿意戴眼镜,甚至近视也选择隐形或手术。祝铭明的答案很克制:当前阶段不要强行说服这批人。先服务已经接受有框眼镜的人群,让他们在原有佩戴行为上叠加 AI 能力;当身边戴眼镜的人获得明显信息优势时,再让不愿戴的人重新选择。这里的产品策略不是“全民立刻佩戴”,而是从更自然的原住民人群开始。
实践经验:采用曲线从最少阻力人群开始
硬件产品的早期用户不一定是最大人群,而是阻力最小、反馈最强、愿意忍受早期不完美的人群。对智能眼镜来说,愿意戴有框眼镜的人、科技极客、出差/翻译/会议高频用户,比完全抗拒眼镜的人更适合作为早期主用户。
| 用户类型 | 初期阻力 | 产品策略 |
|---|---|---|
| 本来戴眼镜的人 | 最低,只需把原有佩戴升级为 AI 能力 | 先做舒适、度数、重量和日常使用。 |
| 愿意部分场景佩戴的人 | 中等,需要关键场景足够强 | 旅行、翻译、会议、导航、扫码等高价值场景。 |
| 不愿戴眼镜的人 | 最高,生理和心理阻力都存在 | 不强行教育,等能力差距和形态成熟后再扩展。 |
中美产品定义差异
美国很多智能眼镜更像 sunglasses 逻辑:户外、社交、拍照、视频分享,不一定 always on,也不一定把显示作为必选项。Rokid 更偏中国眼镜逻辑:大量用户本来就戴眼镜,室内外长时间佩戴更自然;因此产品定义从第一天就偏 AI 加 AR,强调显示、助手和随身信息入口。Meta/Ray-Ban 的路线是社交内容生产工具,Rokid 的路线是个人信息消费和 AI 助手。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{china-us-glasses-definition.png}
\caption{中美定义智能眼镜的差异:产品定义、渠道和用户场景不同。自制概念图,依据 01:23:38--01:41:35 对谈内容整理。}
\end{figure}
读图:同样长得像眼镜,不代表是同一物种
左侧中国路线强调近视人群、全天佩戴、显示和 AI 助手;右侧美国路线更容易从 sunglasses、社交拍摄和品牌时尚进入。两者可能最终交汇,但早期产品定义、用户场景和功能优先级不同。
产品定义决定技术栈
如果产品是社交拍摄工具,摄像头、品牌、分享链路和隐私提示是核心;如果产品是 AI 入口,显示、OS、低延迟反馈、功耗、佩戴舒适和模型接入是核心。同样叫智能眼镜,技术优先级可能完全不同。
本章小结
智能眼镜的入口逻辑是 always-on、信息直达和碎片任务迁移。显示能力决定 AI 输出是否能从串行语音变成可视、可纠错、可平台化的交互;佩戴边界则决定早期人群不能被无限扩大,必须先从阻力最小的用户开始。
与巨头竞争:四个不与时间窗口
上一章讲产品定义,本章讲竞争。祝铭明引用马云总结的创业公司与巨头竞争的四个机会:看不见、看不懂、看不上、来不及。智能眼镜这件事,大公司一定看得见,也大概率看得懂;创业公司的窗口主要来自“看不上”到“来不及”之间的两三年。Rokid 的目标不是与巨头平等竞争,而是做到对等竞争,至少上“大人那一桌吃饭”。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{startup-vs-giants-four-no.png}
\caption{创业公司对巨头的四个不:看不见、看不懂、看不上、来不及。自制概念图,依据 01:19:29--01:23:38 对谈内容整理。}
\end{figure}
读图:Rokid 的窗口不是巨头不知道,而是巨头尚未全力
图中“来不及”是创业公司真正想争取的状态。智能眼镜足够显眼,大厂不会长期看不见;Rokid 必须在大厂全面进入前,通过产品、用户、开发者和供应链形成足够领先。
术语消化:四个不
| 阶段 | 巨头状态 | 创业公司的窗口 |
|---|---|---|
| 看不见 | 机会太边缘,组织没有注意到 | 小团队可以先验证新需求。 |
| 看不懂 | 看到了现象,但无法判断价值 | 创业公司用产品和数据证明意义。 |
| 看不上 | 看懂了,但规模暂时不够大 | 这是智能眼镜当前最可能的窗口。 |
| 来不及 | 等巨头下场时,先发者已有体验和生态积累 | 创业公司要争取进入这个状态。 |
大厂为什么会晚一步
祝铭明认为,大公司通常敢为人后,选择成熟供应链、成熟方案和更低风险切入。例如不带显示的眼镜更容易用已有供应链做出来;但带显示、轻便、all-in-one 的智能眼镜需要探索新工艺,创业公司反而可能先跑到最前面。问题是,先跑意味着要替行业承担工艺、产能和用户教育风险。
先发不是单纯优势
先发者要承担未验证工艺、供应链爬坡、产品缺陷被放大、用户预期管理和资金压力。大厂晚一步进入,反而可以复制成熟路线;创业公司必须用时间差换取口碑、开发者和产品体验。
对等竞争:不是平等竞争
本节解释祝铭明说的“上大人那一桌吃饭”。创业公司无法和腾讯、阿里、字节、小米、苹果、Meta 做平等竞争,因为资金、流量、供应链和渠道都不在同一量级。能争取的是对等竞争:在一个具体产品定义上,用户愿意把 Rokid 和巨头放在同一个选择集合里比较;渠道愿意认真卖;开发者愿意适配;模型和内容伙伴愿意合作。
访谈里提到几个衡量信号:日均使用超过两小时、开发者超过一万、企业开发者超过三千、周活跃超过七成、复购和推荐占比较高。这些数字不应被当作外部审计后的结论,而应被当作讲者用来说明“平台属性正在形成”的证据类型。真正重要的是:创业公司不能只靠发布会热度上桌,必须拿出用户时长、复购、开发者和供应链交付。
| 对等竞争指标 | 为什么重要 | 不足之处 |
|---|---|---|
| 用户时长 | 说明设备不是一次性新鲜感 | 还要看任务结构和留存。 |
| 复购/推荐 | 说明早期用户有口碑扩散 | 样本可能偏极客,需要扩大到普通用户。 |
| 开发者数量 | 说明有生态供给苗头 | 开发者活跃度和收入仍要验证。 |
| 渠道复进货 | 说明产品能在真实销售里滚动 | 首批铺货不等于渠道扎实。 |
| 供应链产能 | 说明热度能转成交付 | 高产能也会放大质量问题。 |
生态与盟军
Rokid 不认为自己可以单独建完整生态。祝铭明提到,腾讯有内容、社交和场景,豆包、通义千问、DeepSeek 等模型能力也可以接入。硬件创业公司需要把平台、技术和产品体验做好,但生态建设需要更多盟军。这里的现实判断是:智能眼镜如果要成为入口,不可能只靠硬件参数取胜,还要有内容、应用、开发者、模型和渠道共同参与。
生态不是单家公司自建出来的
Rokid 可以先承担探索和领先,把技术、平台和产品体验打扎实;但内容、社交、模型、开发者和场景伙伴需要共同进入。对随身 AI 入口来说,硬件公司如果既想做硬件、OS、模型、内容、应用和渠道,资源消耗会迅速超过创业公司承受范围。
本章小结
智能眼镜是巨头一定会进入的战场。创业公司的窗口在于更早承担风险、更快形成产品体验和生态位置,并在巨头全力进入前建立对等竞争资格。
硬件创业黑森林:供应链、产能与组织
本章回到“硬件黑森林”。硬件创业的难点不只是产品定义,还包括供应链、库存、产能、良率、交付、渠道、售后和现金流。软件产品可以快速迭代,硬件每次迭代都有物料、工艺、模具和库存成本。祝铭明多次强调,Rokid 早年用 AI 硬件和音箱产品交了供应链学费,后来切到 AR 时才有硬件团队和生产基础。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{hardware-black-forest.png}
\caption{硬件创业黑森林:供应链、现金流、库存、渠道和巨头竞争同时存在。自制概念图,依据 00:59:17--02:08:56 对谈内容整理。}
\end{figure}
读图:黑森林是多变量风险场
供应链决定能不能交付,现金流决定能不能等到下一代产品,库存决定风险敞口,渠道决定能不能触达用户,巨头决定竞争强度,PMF 决定这一切是否值得。硬件创业必须同时管理这些变量。
硬件学费:极客产品到消费产品
本节回到早期 Alien 和音箱给 Rokid 留下的学费。祝铭明说,极客心目中的好产品不一定是消费者愿意买的产品。一个产品可以很酷、很完整、很有技术含量,却因为价格、重量、场景、渠道或服务复杂度无法成为消费品。硬件创业的残酷在于,用户不会为“技术难”付费,供应链也不会因为愿景宏大而降低成本。
硬件快速迭代是灾难性的
软件可以连续发布版本,硬件每次改动都可能影响模具、物料、产线、库存和售后。早期硬件公司必须控制迭代节奏:太慢会被市场淘汰,太快会把供应链、现金流和质量体系拖垮。
| 风险项 | 软件产品中的表现 | 硬件产品中的放大效应 |
|---|---|---|
| 版本迭代 | 发布补丁或灰度更新 | 牵动物料、模具、认证和库存。 |
| 用户反馈 | 可快速 A/B 测试 | 反馈周期长,退换货和售后成本高。 |
| 质量缺陷 | 线上回滚或修复 | 已交付设备会形成真实赔付和口碑损伤。 |
| 需求暴增 | 增加服务器或限流 | 需要产能、物料、良率和现金垫付。 |
| 渠道扩张 | 线上分发成本相对低 | 需要铺货、培训、陈列和复进货验证。 |
产能与爆火的反作用
Rokid 近期关注度上升后,祝铭明反而强调压力变大。火了会带来品牌、订单和人才关注,但也会让产品失去小范围打磨空间。过去可以拿 70 分产品给一小批极客用户一起改到 90 分;现在一旦曝光,数亿人会在放大镜下看产品,少量负面声音也会被放大。因此发布节奏、产能准备和产品成熟度必须重新调整。
硬件产品不能只追求流量
流量会提高需求,也会提高容错门槛。硬件产品一旦大规模交付,质量、产能、售后和口碑会同步接受检验。爆火不是终点,而是供应链压力测试的开始。
OS know-how:硬件差异最终落到体验
本节补上 Rokid 自认为最核心的能力:OS。祝铭明认为,眼镜的差距不只在硬件参数,还在 OS 对功耗、连接、低延迟反馈和 AI 体验的持续打磨。例如翻译要在很短时间内反馈,续航要比同类产品多出可感知的一段时间,蓝牙和多端连接要稳定。这些看起来是细节,但对 always-on 设备来说,细节就是入口资格。
硬件会遇到产业平台期:某个阶段光学、芯片、电池、重量很难连续跳跃,其他厂商可以慢慢追上。但软件、体验和生态可以持续累积。这个判断解释了为什么 Rokid 一直强调 OS 和开发者,而不是只强调某个镜片、摄像头或模型名称。
术语消化:OS 在智能眼镜里意味着什么
| 能力 | 具体含义 | 为什么影响入口 |
|---|---|---|
| 功耗控制 | 系统调度、传感器唤醒、显示和音频管理 | always-on 设备必须让用户愿意戴半天以上。 |
| 低延迟反馈 | 语音、翻译、提示和视觉结果快速返回 | 延迟高会让用户回到手机。 |
| 连接稳定 | 蓝牙、手机、云端模型和本地组件稳定协同 | 随身设备不能频繁掉线或重连。 |
| 体验编排 | 把相机、显示、语音、触控和模型组织成短路径 | 入口竞争的本质是路径成本竞争。 |
玩心与 trouble maker
Rokid 的价值观第一条是“玩心”。这里的玩心不是松散,而是持续对产品细节找麻烦。祝铭明把自己描述为 trouble maker:不断问这个体验是不是还可以更好,这个细节是不是不对。硬件创业需要这种问题意识,因为很多差距不在 PPT 上,而在佩戴、重量、显示、声音、产线、库存和用户反馈的细节里。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.88\textwidth]{playfulness-culture.png}
\caption{玩心文化:硬件创业需要 trouble maker 式的问题意识。自制概念图,依据 01:41:35--01:48:32 对谈内容整理。}
\end{figure}
读图:玩心不是轻浮,是对产品保持不满足
图中好奇、动手、冒险、审美和团队构成一个产品文化。硬件公司如果只靠流程,容易把产品做成合格但无感;如果只有创意,容易交付不了。玩心要和工程纪律绑定。
课堂提示:玩心要允许团队反驳创始人
访谈里一个关键细节是,Rokid 最赚钱的两个产品曾被祝铭明否掉,最后是团队把产品做出来、用体验和数据改变他的判断。这说明“玩心”不是老板一个人的创意,而是组织允许产品、业务和工程团队用实物样机挑战判断。
成功与失败的内部定义
本节处理访谈结尾的价值观。祝铭明对第二次创业的成功定义,不是单纯融资、上市或个人出名,而是公司能沿着自己认同的路走下去,让用户喜欢并长期佩戴产品。如果偏离原来要做的事情,即使赚钱或上市,也不算他心里的成功。失败则是被迫放弃自己认同的方向,或者为了短期目标做不想做的事。
这对硬件创业尤其重要。硬件路线太长,短期诱惑很多:卖掉、转做更容易的产品、追热点、牺牲体验换规模、用创始人 IP 代替产品口碑。祝铭明反而希望产品和公司热度超过个人热度,因为创始人 IP 会带来社会包袱,也会让公司把注意力从产品转到人物。
产品口碑优先于创始人 IP
这期访谈的末尾不是励志鸡汤,而是一个治理问题:当公司因为创始人出圈而获得流量时,如何确保流量最终服务产品,而不是让组织围绕个人表演转。对硬件公司来说,长期口碑仍来自佩戴、续航、稳定、售后和真实使用,而不是创始人可见度。
本章小结
硬件创业黑森林的核心是:每个选择都会变成真实成本。智能眼镜创业要同时跑产品定义、供应链、产能、生态、融资和组织文化,任何一项都可能拖慢平台化进程。
总结与延伸
本节把整期压缩成五个判断。第一,Rokid 的主线不是单一产品,而是持续寻找下一代个人计算入口。第二,AI 音箱没有成为平台,是因为输入输出和场景都太窄;智能眼镜的入口机会来自 always-on 和显示能力。第三,2019 年从 AI 转 AR 是战略延续,不是突然改方向。第四,中美智能眼镜定义不同:中国近视人群和全天佩戴场景更支持 AI+AR 逻辑,美国 sunglasses/社交逻辑更强。第五,硬件创业的真正难点是产品、供应链、产能、生态和巨头竞争同时过线。
把 EP104 放进张小珺 AI/互联网队列
EP104 与 EP106/EP109 的物理世界 AI 线索不同,它讲的是“随身智能”入口。若具身智能是 AI 进入外部物理世界,智能眼镜则是 AI 贴近个人感知和信息流的入口。
概念压缩:随身智能的三层门槛
本节把全文再压缩成一个判断模型。智能眼镜要成为随身智能入口,至少要过三层门槛。第一层是佩戴门槛:重量、镜片、度数、外观、续航和眩晕感必须足够日常。第二层是交互门槛:它必须在短任务上明显少于手机路径成本,并且显示/语音/触控组合足够自然。第三层是生态门槛:用户时长、开发者、模型伙伴、内容场景和渠道复购要能滚动起来。
| 门槛 | 核心问题 | EP104 给出的答案 |
|---|---|---|
| 佩戴门槛 | 用户愿不愿意一直戴 | 先从有框眼镜人群开始,不强行说服抗拒者。 |
| 交互门槛 | 是否比手机更直达 | always-on、显示、语音和视线方向降低路径成本。 |
| 生态门槛 | 是否能从产品走向平台 | 两小时使用、开发者、模型合作和渠道复进货共同验证。 |
与前后访谈的连接
本节把 EP104 放回张小珺这一批 AI/互联网访谈。EP106 和 EP109 关注具身智能,讨论机器人如何通过数据、仿真和模型进入物理世界;EP104 则关注随身智能,讨论 AI 如何贴近个人感知和信息流。二者都不是单纯“更强模型”的问题,而是模型能力必须找到合适硬件、交互方式和数据闭环。
如果把 AI 硬件化看成一张地图,机器人是“行动端”:它替人移动、抓取、操作和服务;智能眼镜是“感知端”:它替人看、听、查询、翻译、提醒和调度注意力。二者都需要长期供应链和场景验证,但风险结构不同。机器人难在行动可靠性和物理世界成本,眼镜难在佩戴舒适、入口效率和生态密度。
关键 takeaways
- 智能眼镜的核心不是拍照或炫技,而是 AI 的随身入口效率。
- 显示能力会改变 AI 的交互形态,让翻译、提示和信息消费从串行语音变成可视化流程。
- 创业公司面对巨头的窗口期有限,必须在大厂看上之前形成体验和生态壁垒。
- 硬件爆火会反向提高质量和产能压力,不能把流量当作 PMF 本身。
- Rokid 的案例说明,硬件创业需要长期路线、供应链能力、资本耐心和持续找问题的产品文化。
拓展阅读
- 对 AI 如何进入物理世界感兴趣,可对照 EP106 王鹤、EP109 谢晨和 EP121 谭捷机器人访谈。
- 对硬科技创业和供应链感兴趣,可对照 EP111 李一帆激光雷达创业史。
- 对 AI 应用与产品入口感兴趣,可对照 EP123 ONE2X 与 EP130 AI 产品方法论访谈。