[CS 153] Frontier Systems 导论 — 课程讲师 Anjney Midha
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于 Stanford CS 153 课程内容整理 |
| 来源 | Stanford CS 153 |
| 日期 | 2026 |
![[CS 153] Frontier Systems 导论 — 课程讲师 Anjney Midha](cover.jpg)
课程概览与讲师介绍
Stanford CS 153: Frontier Systems 是一门聚焦 AI 基础设施全栈(full-stack)重构的研讨课程,由 Anjney Midha(简称 Anj)与 Mike 共同主讲。课程始于四年前的"Security at Scale",如今已演变为覆盖从能源、芯片到模型、应用乃至政策治理的全栈前沿课。
课程演变历程
CS 153 最初名为 Security at Scale,由 Midha(时任 Discord 平台负责人)与 Mike(时任 Apple 基础设施负责人)于四年前共同创立。当时两人意识到安全领域的前沿问题在校园中缺乏系统性教学。随着 AI 浪潮到来,课程更名为 Frontier Systems,从安全扩展到整个基础设施栈的重构。课程从最初 50 人扩展到了 500 人,另有 50 人在等候名单上,还有数千人在线跟进。
讲师背景
Midha 出生于印度,在新加坡读高中,后就读于 Stanford 本科(数学与计算科学、经济学)和研究生(生物信息学,即医学领域的机器学习应用)。他自称是一个"应用思考者"(applied thinker),热衷于将机器学习系统在真实世界中大规模部署后所揭示的规律进行总结。
过去 10--15 年间,Midha 参与了超过 10 家 AI 实验室的早期创建,包括 Anthropic、Mistral、Black Forest Labs 等。他目前的身份被称为 founding investor——既非传统 VC(仅写支票),也非 CEO,而是在 Day 1 与科学家团队共同创业,一次只聚焦一个项目。当前项目为 Periodic Labs(利用 RL + 物理验证发现新超导体的公司)。
课程目标:Preparedness(准备度)
Midha 强调,CS 153 的目标不是帮学生找实习,而是为真实世界做好准备(preparedness)。课程将邀请 Jensen Huang(NVIDIA)、Lisa Su(AMD)、Satya Nadella(Microsoft)、Sam Altman(OpenAI)、Liam Fedus(ChatGPT 联合创始人)、Arthur Mensch(Mistral)等业界领袖来授课,提供尽可能多样且不相关(uncorrelated)的视角。
人生建议与关系的价值
Midha 在正式开讲前,花了相当篇幅分享人生感悟。他指出,许多学生在 office hours 中问"如何规划未来",他的经验法则(heuristic)出奇简单:和你喜欢相处的人一起做有趣的事。
Midha 强调,他在 Stanford 结识了妻子(已相伴 13 年),两次创业的合伙人都是 Stanford 室友。他鼓励学生重视同学间的关系,因为信任、友谊、热爱等"不可规模化的资产"(assets that don't scale)在大型组织中反而最稀缺。
不要让 AI 替代你的思考
Midha 提到,他曾用 Claude 扩写自己的大纲,结果朋友 30 秒内就识破了 AI 生成内容。此后 AMP 内部制定了规则:不互发 AI 生成文档,即使内容粗糙也要亲自思考和写作。在创意写作、长文等领域,当前模型仍然表现不佳——充斥着 clich\'{e} 风格、m-dash 滥用和套路化表达。
本章小结
CS 153 是一门由 AI 基础设施从业者主讲的全栈前沿课程,目标是培养学生对"大转型"(Great Transition)的全局理解和参与能力。讲师 Midha 的核心信念是:真正的竞争优势来自关系、热爱和不可规模化的洞察力。
全栈重构:The Great Transition
Midha 指出,过去 10--15 年间,随着分布式系统和云基础设施的兴起,业界形成了一套相对稳定的软件生产和扩展栈。但 AI 的到来正在从根本上动摇这套假设。
基础设施栈的层次结构
Midha 将整个 AI 基础设施栈分为以下层次:
| 层级 | 内容 |
|---|---|
| Capital(资本) | 灵活的资金投入,驱动一切 |
| Land / Power / Shell(土地/电力/外壳) | 能源生产、数据中心建设 |
| Chips(芯片) | GPU / 加速器硬件 |
| Cloud(云) | 使芯片可用的软件基础设施 |
| Models / Agents(模型/智能体) | 将芯片连接起来训练得到的智能 |
| Applications / Solutions(应用/解决方案) | 面向用户的产品部署 |
| Governance(治理) | 安全、信任、政策框架 |
全栈重写(Full-Stack Rewrite)
Midha 强调,当前正处于 full-stack rewrite 阶段——栈的每一层都在被重新审视。每一层的领导者都在思考:如何解除瓶颈(unblock bottlenecks),如何让 AI 更快、更安全、更可靠地发展。这要求从业者不能只做工程师,而要成为 full-stack thinker——同时理解资本市场、商业模式、技术架构和政策框架。
大转型的驱动力
AI 作为新型通用技术(general purpose technology)释放了巨大价值,并即将释放更多。Midha 指出,这种全栈假设重构的现象在他职业生涯中前所未有,但对学生而言却是巨大机遇——因为在不确定性最高的时期,拥有洞察力的人才有机会重新设计那些长期静态的系统。
从手工作坊到工业化生产
Midha 回顾了 AI 模型训练从"手工作坊"到"工业化生产"的转变。四年前,新模型大约一年才出一个;如今,base model 训练至少一年两次(在 10 万块 GB B300 等效算力上),mid-training 一年 2--4 次(约占 base model 算力的 10%),而 continuous post-training(SFT + RL)则持续进行。更重要的是,RL 阶段的算力消耗如今几乎等于 pipeline 其余所有步骤的总和。
本章小结
AI 基础设施正经历前所未有的全栈重构。课程目标是让学生理解每一层的瓶颈与机遇,培养跨层思考能力。Midha 将本讲后续内容组织为四大瓶颈:Context(上下文)、Compute(算力)、Capital(资本)和 Culture(文化)。
瓶颈一:Context(上下文/环境)
Midha 指出,在"谁将在 AI 竞赛中胜出"这一问题上,他的核心观点是:Context is critical(上下文/环境至关重要)。
RL 与 Context 反馈循环
Midha 首先回顾了强化学习(RL)的基本思想:不告诉 agent 如何做,只告诉它做什么任务、成功时给予奖励、失败时不给奖励,然后不断重复。
RL 为何在近两年突然开始奏效?
RL 的核心原理已存在数十年,但直到约两年前才在通用领域展现出持续扩展的能力。原因在于:当 RL 环境中的 agent 是一个足够智能的 LLM(拥有关于真实世界的充分先验知识)时,系统的学习速度远超以往,且能力随着算力和环境的丰富度持续提升。过去在象棋、围棋等狭窄领域中,RL 虽能超越人类但很快到达 plateau;而现在 LLM 的通用推理能力打破了这一限制。
Midha 以 Anthropic 的创建过程为例讲解了 scaling recipe(扩展配方):
- 融资:获得资金
- 购买算力:获取 GPU 集群
- 数据增强:收集和构建数据
- Pre-train:产出 state-of-the-art 模型
- 部署/推理:让用户使用模型
- 两个飞轮:推理收入用于购买下一轮算力;用户交互产生 context feedback(上下文反馈),通过 RL 持续提升能力
Anthropic 的创业故事
Midha 回忆道,四年前他接到 Dario 和 Tom(Anthropic 创始人,当时在 OpenAI 做研究)的电话,希望离开并创建新实验室。他们共同构思了将"能力扩展"转化为商业的路径。Midha 作为天使投资人向 Sand Hill Road 的 22 位朋友做了推荐,收到了 21 个拒绝——大多数人认为理论上有趣但缺乏实证。四年后,Anthropic 年营收从 9 亿增长到 200 亿美元,成为最有力的实证。
Context 决定竞争格局
Midha 指出,既然 scaling recipe 如此简单且可重复,核心问题变成了:价值将归于谁? 他的回答是:
Context 的三个关键问题
- 前沿进展将在哪里最快?——在那些 context 可以被可靠地测量和验证(verifiable)的领域。代码天然可验证(有单元测试),材料科学可通过物理实验验证,但美学、爱情、创意写作等领域的验证极其困难。
- 谁将捕获价值?——拥有独特且可防御的 context 访问权(unique and defensible access to context)的团队。先到者或拥有独特洞察者将胜出。
- 谁将失败?——被锁定在关键 context 之外的团队将失去竞争机会。
Context Wars:现实案例
Midha 用两个案例说明"context 争夺战"已经打响:
案例 1:OpenAI 收购 Windsurf 事件。大约一年前,OpenAI 宣布收购 IDE 工具 Windsurf。几天后,Anthropic 立刻切断了对 Windsurf 用户的模型访问。Midha 指出,这在行业内极为罕见——通常不会无预警地切断 API 访问——但逻辑很清晰:如果竞争对手能通过你的模型观察用户行为并蒸馏出知识,那就是 context leakage(上下文泄漏)。这一事件打破了"应用层公司可以始终依赖模型公司提供智能"这一假设。
案例 2:Mistral 与 Sovereign AI。Mistral 由 Llama 联合创始人 Guillaume Lample 和 Chinchilla Scaling Laws 第一作者 Arthur Mensch 共同创立。他们的洞察是:编程等非敏感 context 可以放心交给闭源云模型处理,但涉及国家安全、国防、政府记录等 sovereign context(主权上下文)则必须在本地运行、由本地控制。这就是为什么法国总统 Macron、NVIDIA CEO Jensen 和 33 岁的 Arthur 会同台出现在巴黎,宣称 Mistral 是"欧洲的未来"。
CLOUD Act 的影响
美国 CLOUD Act 规定:运行在美国公司服务器上的工作负载(无论服务器物理位置在哪),美国政府都有权访问其数据。对于全球许多政府和组织来说,这意味着将 AI 工作负载放在美国云上是不可接受的。随着 RL 在关键任务领域展现出高精度,AI 工作负载从"有趣的聊天机器人"升级为"关键任务系统",cloud infrastructure 的全球格局正在发生深刻重组。
RL 的极限:哲学观 vs. 经验观
Midha 指出,关于"RL 的极限在哪里"这一核心问题,业界存在两种对立观点:
| 哲学观(Philosophical View) | 经验观(Empirical View) |
|---|---|
| 给定正确的 context 和足够的 compute,agent 应能学会任何事情。coding agent 足够强大后,可以让它自己构建 material science 环境,然后自行 RL——实现递归式自我提升。 | 现实是混乱的。RL 在可验证领域(如编码)进展迅猛,但目前没有明确证据表明能力会跨任务分布泛化(从 coding 到 material science 到 biology)。在不易验证的领域(美学、创意写作),进展要慢得多。 |
Midha 表示自己更倾向于经验观。他观察到 RL 在特定领域内(within narrow distribution)的进展是无情而持续的(relentless),但跨域泛化仍是未解之谜。
3Blue1Brown 创始人的启示
Midha 与 Stanford 本科室友、3Blue1Brown 创始人 Grant Sanderson 深夜长谈后感悟到:真正的前沿魔力在于蒸馏世界级专家的洞察力——他们对如何从第一性原理解构技术主题有独特的品味和能力。RL 只是实现这一目标的一种技术手段,未来还会有更多方法被发明出来。
本章小结
Context 是 AI 竞争的核心变量。前沿进展最快的领域是那些 context 可被可靠验证的领域;拥有独特、可防御 context 访问权的团队将捕获最大价值。Context 争夺战已在消费者、创作者、企业和国家层面全面展开。RL 在可验证领域展现出持续的进步,但跨域泛化仍是开放问题。
瓶颈二:Compute(算力)
Midha 在进入算力讨论时表示,这是他最兴奋的部分——作为一个"infrastructure nerd",他花费大量时间研究算力的经济学和系统学。
Scaling 的可预测性
算力–能力–收入的强相关性
Midha 展示了 Anthropic 过去四年的公开数据:每次公司上线新算力,大约 60--90 天后就会出现能力跳跃,紧接着是收入跳跃。这种相关性极其稳定且可预测。从系统视角看,这意味着:我们已经开发出一种可预测地将一种输入转化为另一种输入的方法——而这种输出在市场上比输入大约值钱 10 倍。
具体而言:一美元的算力(硬资产——土地、电力、机壳——通常在金融市场上以 3--4 倍收入倍数交易)被转化为一美元的软件收入(通常以 30--40 倍收入倍数交易)。这就是"基础设施交易"(infrastructure trade)的本质。
Midha 还以 Claude Code 在 GitHub 上的公开 commit 数据为佐证:commit 数量与算力建设高度相关,证明这不仅仅是"收入泵",而是真实的、指数级增长的使用量。
算力不是大宗商品
Midha 指出,过去四年他无数次接到电话,对方说:"Anj,你为什么花这么多时间在算力上?它只是大宗商品(commodity),给公司一笔钱,他们自己去 GCP/AWS 租就行了。"
GPU 价格在上涨而非下降
AMP 内部系统(AMP Grid)追踪的数据显示:H100(一款已经两年多的芯片)的租赁价格在过去 90 天内持续上涨。两年前,H100 每小时平均租赁价格为 $1.73,如今已显著回升。"任何告诉你芯片是大宗商品的人,都应该看看这张图。"
Midha 展示了 AMP Grid 汇总的 GPU 租赁价格季度趋势数据。他还分享了一条当天早上收到的真实消息(来自一位融资超过 7 亿美元的创始人):
"Anj,我们遇到算力危机了。需要 H100,立刻要。多少都行,马上能拿就行。价格不是问题。"
Midha 戏称:"现在是做算力掮客的好时候。"
算力不可替代(Non-Fungible)
算力为何不是商品?两个核心原因
- 不可替代(Non-fungible):不同厂商(AMD vs. NVIDIA)的芯片互不兼容,甚至同一厂商不同代际的芯片(H100 vs. GB200 vs. B300)也不可互换。这与电力完全不同——今天的电力是完全可替代的,一度电就是一度电。
- 难以预测(Hard to forecast):训练需求呈尖峰状(spike)——实验阶段用量小,hero training run 时突然飙升;推理需求则呈周期性——白天用量大,夜间几乎为零(尤其对于主要部署在美国的 chatbot)。
Midha 对比指出:电力已经有约 75 年的稳定需求预测机制,但算力完全没有。不可替代性加上不可预测性,导致了囤积周期(hoarding cycles)——大公司大量抢购算力,推高价格,中小团队被挤出市场。
本章小结
算力是 AI 能力扩展最关键的物理输入,但它目前既不可替代也难以预测——远非"大宗商品"。GPU 价格正在上涨,大型科技公司的资本支出正以惊人速度增长。理解算力的经济学对于任何想要在前沿做研究或创业的人都至关重要。
历史镜鉴:基础设施周期
Midha 强调自己喜欢从历史中寻找关于未来的线索。他指出,人类反复经历过新型基础设施诞生、价格暴涨、恐慌、崩盘、最终稳定的周期。
历史案例
四个基础设施周期
- 钢铁(1867--1895):价格攀升 \(\rightarrow\) 1873 年恐慌(过度囤积,价格崩盘)\(\rightarrow\) 社会协调恢复稳定生产与消费。
- 光纤(2000 年前后):Cisco、Lucent、Nortel、WorldCom 等公司大举建设 \(\rightarrow\) 光纤过度建设 \(\rightarrow\) 泡沫破裂 \(\rightarrow\) 最终带宽成为稳定的基础设施资源。
- DRAM(半导体周期):个人计算兴起 \(\rightarrow\) 疯狂囤积 \(\rightarrow\) 某个触发事件引发恐慌性抛售 \(\rightarrow\) 市场认识到内存的真实价值 \(\rightarrow\) 剧烈波动后逐步稳定。
- 铀(1970 年代核能热潮):价格飙升 \(\rightarrow\) 政府介入 \(\rightarrow\) 资源稳定化。
Midha 还提到了波罗的海干散货指数(Baltic Dry Index)反映的航运周期,以及当前所有经济学家和华尔街日报评论员都在讨论的"AI 泡沫"。他认为,这些类比虽然有用,但 AI 的独特之处在于:它同时需要大规模物理资源(atoms)来生产高度数字化的产品(bits)。
原子与比特的碰撞
AI scaling 的独特挑战在于:生产 AI 需要调动大规模物理资源(土地、电力、芯片),但产出的是纯数字产品(软件收入、智能服务)。这两个世界传统上不喜欢"碰撞"——如何稳定地协调它们是全新的系统性挑战。
Big Tech 的资本支出爆炸
Midha 给出了一组令人震惊的数字:
Capex 加速时间线
过去三年间,五大科技公司在基础设施(土地、电力、数据中心)上的支出已经超过此前 30 年的总和。具体数字:
- 去年:约 3000 亿美元
- 今年:约 6000 亿美元
- 明年(已在财报中宣布):1.2 万亿美元
周期时长估算
Midha 引用了历史数据来估算当前周期的可能时长:
| 基础设施类型 | 典型周期时长 |
|---|---|
| 数字基础设施(互联网、带宽) | \(≈\)2.8 年 |
| 物理基础设施(传统行业) | \(≈\)6.3 年 |
| AI 算力(兼具物理与数字属性) | 未知,可能介于两者之间 |
本章小结
基础设施发展具有明显的周期性——发明新技术、价格飙升、恐慌、崩盘、最终稳定。当前 AI 算力正处于"价格上涨+大规模囤积"的早期阶段。历史表明,要平稳过渡到稳定供给,需要标准化和制度建设。
商品化之路:标准与制度
Midha 提出的核心问题是:历史上,将稀缺的、被垄断的生产资源转变为人人可用的商品,需要什么条件?他的答案是两个关键要素:标准(standards)和制度(institutions)。
标准的力量
历史上的关键标准
- AC/DC 电流标准:使电力从不可替代的本地资源变为全国性商品
- TCP/IP:使互联网从军方实验网络变为全球通信基础设施
- 标准轨距:使铁路从互不兼容的地方系统变为全国性运输网络
这些标准的共同点是:让所有人都同意一种格式来生产和消费基础设施,无论它在哪里。
商品可替代性的定义
Midha 引用了标准的经济学定义来说明"可替代商品"需满足的条件:
- 通用计量单位(common unit)
- 标准交付接口(standard delivery interface)
- 互联与池化(interconnection and pooling)
- 计量、控制与结算(metering, control, and settlement)
- 买方可替换供应商(buyers can substitute one supplier's unit for another)
当前 AI 算力不满足任何一条
对照上述定义,当前 AI 算力几乎不满足任何一条可替代性条件:没有通用计量单位(不同芯片性能差异巨大),没有标准交付接口(各厂商软件栈互不兼容),无法互联池化(跨云跨芯片的训练极其困难),缺乏计量结算机制,买方无法轻松替换供应商。这就是为什么我们处于"compute 的前标准化时代"。
制度的作用
Midha 指出,仅有标准是不够的——还需要制度来执行这些标准。因为在任何规模上,人类都会出现利益不一致(misaligned)的情况。有时行业能够自律并达成标准(如 TCP/IP),有时则需要政府介入(如电力公用事业监管、铀资源管控)。
当前处于"Compute 的前标准化时代"(Pre-Standardization Era of Compute)
如果将当前的 AI 算力与历史上的铁路(1886 年标准化)、电气化(1907 年)、电话、航空、互联网、半导体等周期对比,我们大约处于标准化之前的混乱阶段——资源被少数玩家垄断,价格波动剧烈,缺乏统一标准和协调机制。解决这一问题需要技术标准的制定和执行标准的制度建设。
本章小结
将算力从稀缺的被垄断资源转变为可普遍获取的商品,需要标准化和制度化两个条件。当前 AI 算力处于"前标准化时代",这既是挑战也是巨大的创业和研究机会。
云计算的 15 年与 AI 的颠覆
Midha 回顾了云计算的历史,以此对比说明 AI 如何打破了长达 15 年的稳定格局。
云的起源与边际成本递减
AWS、GCP、Azure 的诞生逻辑
Amazon(电商)和 Google(搜索)因自身业务需求积累了大量服务器。当规模足够大时,新增一台服务器的边际成本变得极低,于是它们开始将多余的算力出租给第三方——这就是 AWS 和 GCP 的起源。Mike(Midha 的联合讲师)参与了 Azure 的创建。 过去 15 年,云基础设施的历史就是边际成本递减(decreasing marginal cost)的历史——存储、网络、服务器的成本持续下降,大型云厂商通过规模经济不断巩固寡头地位。
AI 打破了边际成本递减的假设
Midha 指出,15 年来第一次,这种格局正在改变。原因有三:
- AI 工作负载对芯片的需求远超传统云,且芯片价格不降反升
- 主权 AI 需求使得很多工作负载无法留在美国云上(CLOUD Act)
- 开源模型(如 Mistral、Llama)使得本地部署成为可行选择
这些因素共同作用,使得初创公司第一次有机会在基础设施层面挑战云寡头——通过提供独特的 context 控制、本地部署能力和定制化算力方案。
本章小结
云计算 15 年的稳定格局正被 AI 打破。边际成本不再持续下降、主权需求兴起、开源模型赋能本地部署——这些变化为初创公司创造了前所未有的基础设施层机遇。
价值创造的系统视角
Midha 从系统层面阐述了 AI 如何创造价值,以及这种价值创造机制为何与历史上其他技术截然不同。
硬件到软件的价值转换
10 倍价值放大效应
AI 基础设施的核心经济学:
- 输入:一美元的硬资产(土地、电力、芯片)——在金融市场上通常以 3--4\(\times\) 收入倍数估值
- 输出:一美元的软件收入(模型 API、AI 产品)——在金融市场上通常以 30--40\(\times\) 收入倍数估值
- 放大倍数:约 10 倍
这种可预测的价值转换是驱动 Big Tech 疯狂投资的根本原因。
递归式自我提升(Recursive Self-Improvement)
Midha 指出,当 context 反馈循环和 compute 飞轮运转得足够好时,系统开始能够自我驱动改进——这就是人们常说的通往 AGI 或 ASI 的路径。但 Midha 作为基础设施从业者,更倾向于从系统层面而非单个模型层面来思考递归式自我提升:
系统层面的递归式自我提升
Midha 认为,递归式自我提升不必局限于"某个模型变得超级智能"的叙事。一个执行力强的团队,掌握了如何持续运转 context 飞轮和 compute 飞轮的方法,本身就是一种系统层面的递归式自我提升。关键是保持两个飞轮互相强化、持续运转。
Frontier Lab 的构建模式
Midha 基于十年经验总结了 frontier lab 的通用构建模式:
- 定义 state-of-the-art mission:明确你要推进的前沿领域(材料科学、编程、教育等)
- 获取研究算力:进行初步实验
- 产出新成果:在新领域中,这通常并不困难,因为我们还处于早期
- 部署到 context 中:将成果投入到你拥有访问权的环境中
- 运转反馈循环:收集 context feedback
- 保持飞轮运转:compute 飞轮和 context 飞轮互相强化,持续加速
本章小结
AI 的价值创造机制是将物理资源(硬件)可预测地转化为软件收入,放大倍数约 10 倍。递归式自我提升应从系统层面理解,而非仅仅是模型层面。构建 frontier lab 的核心是找到独特的 context、启动飞轮并持续运转。
学生的机遇与行动指南
Midha 在整堂课中反复强调,学生不应将自己仅视为旁观者,而应成为这场大转型的积极参与者。
你的独特武器
面对"大公司在 AI 和基础设施上投入如此之多,我们还能做什么有意义的事"这一常见焦虑,Midha 给出了三条建议:
做不可规模化的事(Do Things That Don't Scale)
- 做不可规模化的事:大公司反而做不好的事——对细节的痴迷、对特定领域的深度理解
- 押不对称的注(Asymmetric bets):找到你独特理解而大公司忽视的领域
- 执着于你热爱的事:你的品味、审美、文化感知力、对某个领域的热爱——这些是你特有的验证能力,也是 RL 所需要的"人类验证器"
去哪里寻找机会?
Midha 建议学生自问两个关键问题:
- 在生活中的哪些领域,存在可靠可验证的 context但尚未被开发?
- 在哪些领域,你拥有独特的 context 访问权(因为你的专业背景、文化背景、个人兴趣等)?
这些就是最值得投入时间的方向。许多领域目前仍处于早期,只有你因为热爱和洞察力才能验证结果的质量——这恰恰是最大的护城河。
课程作业思考题
Midha 在课程结尾布置了两个贯穿整个学期的思考题:
- 要实现算力领域的和平过渡(peaceful transition),需要什么条件?
- 你在这场变革中扮演什么角色?——你可以写博客、发推文、分享你对标准化的想法,影响来课堂上的业界领袖
本章小结
学生的核心竞争力在于:热爱、品味、关系和对特定领域的深度理解。寻找那些有可验证 context 但尚未被开发的领域,是最好的创业和研究方向。课程鼓励学生成为积极参与者而非旁观者。
课程嘉宾阵容与设计哲学
Midha 在课程中透露了一份令人瞩目的嘉宾名单,以及课程设计的核心哲学。
嘉宾阵容
课程嘉宾覆盖 AI 基础设施栈的每一层:
| 栈层级 | 嘉宾 | 身份 | |
|---|---|---|---|
| Chips | Jensen Huang | NVIDIA CEO | |
| Chips | Lisa Su | AMD CEO | |
| Cloud | Satya Nadella | Microsoft CEO | |
| Models | Sam Altman | OpenAI CEO | |
| Models / App | Liam Fedus | ChatGPT 联合创始人 | |
| Models (Open) | Arthur Mensch | Mistral CEO | |
| Models (Image) | Andreas Blattmann | Black Forest Labs(Stable Diffusion 创造者) | |
| RL + Material Science | Liam \ | Doge | Periodic Labs |
| Confidential Computing | Mike | 联合讲师 |
课程设计哲学
独立性与多样性
Midha 强调,讲师的职责不是让学生接受自己的观点,而是提供尽可能独立(independent)且不相关(uncorrelated)的视角。课程刻意邀请了持对立观点的嘉宾——学生将听到关于相同问题的截然不同的回答。课程是一个开放问题(open problem)的探索平台,而非答案的灌输。
Midha 同时坦承自己的偏见:作为 10+ 家 AI 实验室的早期参与者,他的观察不可避免地受到自身经验数据的影响。展示 disclosure list(利益披露清单)本身就是科学精神的体现——就像好的科学家在论文开头披露实验条件一样。
本章小结
CS 153 汇集了 AI 基础设施全栈各层级的顶级领导者。课程设计强调独立思考、多元视角和开放问题探索,鼓励学生通过准备和提问来最大化从嘉宾处获得的价值。
Scaling Recipe 深度解析
Midha 在课程中多次回到"scaling recipe"这一核心概念,并从不同角度加以阐释。
智能制造的基本配方
Midha 指出,制造智能(manufacture intelligence)的配方出奇简单:
- Compute:大规模 GPU 集群
- Data:训练语料和 context feedback
- Algorithm:核心算法(Transformer),加上 pre-training、mid-training、continuous post-training(SFT + RL)的多阶段流程
双飞轮模型
这套配方产生两个自我强化的飞轮:
Scaling 双飞轮
- 资金飞轮:推理 \(\rightarrow\) 收入 \(\rightarrow\) 购买更多算力 \(\rightarrow\) 训练更强模型 \(\rightarrow\) 更多用户 \(\rightarrow\) 更多推理收入
- Context 飞轮:部署 \(\rightarrow\) 用户交互 \(\rightarrow\) 观察成功/失败 \(\rightarrow\) 收集 context feedback \(\rightarrow\) 通过 RL 改进 \(\rightarrow\) 更好的模型 \(\rightarrow\) 更多用户
两个飞轮互相强化,形成正向循环。关键是让它们持续运转(keep them going as long as you can)。
训练流水线的现代结构
| 阶段 | 频率 | 算力占比 |
|---|---|---|
| Base model training | \(≈\)2 次/年 | 基准(100K GPU 等效) |
| Mid-training | 2–4 次/年 | \(≈\)10% of base |
| Continuous post-training (SFT + RL) | 持续进行 | 快速增长,接近其余步骤总和 |
RL 算力消耗的爆炸性增长
Midha 特别指出,最新的发展趋势是 RL 阶段的算力消耗已经几乎等于 pipeline 其余所有步骤的总和。这意味着 post-training(尤其是 RL)正在从训练流程的"最后一公里"变为算力消耗的"半壁江山"。这也解释了为什么算力需求持续暴增。
本章小结
Scaling recipe 虽然简单(compute + data + algorithm),但其运行形成的双飞轮——资金飞轮和 context 飞轮——是驱动 AI 持续进步的核心机制。RL 阶段算力消耗的爆炸性增长进一步加剧了算力稀缺问题。
Sovereign AI 与基础设施独立
Midha 用 Mistral 的案例深入讨论了"主权 AI"(Sovereign AI)这一新兴概念。
从闭源到主权需求
Midha 指出,对于硅谷的开发者来说,将代码 context 发送到云端闭源模型进行处理是可以接受的——这类 context 不够敏感。但对于政府、国防、医疗等领域的 mission-critical context,情况完全不同:
开源模型的主权价值
Mistral 的商业逻辑是:为那些需要控制自己 context 的组织提供可以在本地基础设施上运行的开源模型。这使得组织可以:
- 在自己的服务器上部署模型,完全控制数据流
- 避免跨境数据传输和 CLOUD Act 的管辖
- 在 sovereign context 中运行 RL 循环,持续改进而不泄漏知识
这也是为什么一个从未经营过企业的 33 岁科学家(Arthur Mensch)能与法国总统和全球首富同台的原因。
基础设施独立的全球趋势
Midha 预测,"sovereign AI"和"infrastructure independence"这两个词在未来几年会被越来越多地提及。这一趋势的本质是:当 AI 工作负载从"有趣的聊天助手"升级为"关键任务系统"时,数据主权问题变得不可回避。
这也是为什么初创公司得以在基础设施层面挑战 15 年来的云寡头格局——它们提供的不是更便宜的算力,而是更安全的 context 控制。
本章小结
Sovereign AI 是 context 争夺战在国家层面的体现。开源模型 + 本地部署使得组织可以在不泄漏 context 的情况下运行 AI 系统。这一趋势正在重塑全球云基础设施格局,为初创公司创造了挑战寡头的窗口期。
总结与延伸
本讲是 CS 153: Frontier Systems 的开学第一课,Midha 从个人经历出发,系统地介绍了 AI 基础设施全栈正在经历的"大转型"(Great Transition),并深入分析了两大核心瓶颈:Context 和 Compute。
核心要点回顾:
- 全栈重构:从资本、能源、芯片到云、模型、应用、治理,AI 栈的每一层都在被重新审视和重建。
- Context 是关键:前沿进展最快的领域是 context 可被验证的领域;拥有独特、可防御 context 的团队将获胜。
- Compute 不是商品:GPU 价格在上涨,算力既不可替代也难以预测,我们处于"前标准化时代"。
- 历史镜鉴:基础设施发展是周期性的,从混乱到稳定需要标准化和制度建设。
- 双飞轮模型:资金飞轮和 context 飞轮的互相强化是 AI 持续进步的引擎。
- 学生是参与者:每个人都可以通过找到独特的可验证 context 来参与这场变革。
Midha 的最终寄语
"你们非常幸运,生活在这个时刻。也许现在还看不清,但回头看时,你们会意识到自己正站在历史的转折点上。不要只做学生——做积极的参与者。"
拓展阅读
- Chinchilla Scaling Laws:Hoffmann et al., “Training Compute-Optimal Large Language Models”——Arthur Mensch 的代表性工作,也是课程指定阅读
- The Bitter Lesson(Rich Sutton, 2019)——关于 compute scaling 的经典论文
- CLOUD Act(全称 Clarifying Lawful Overseas Use of Data Act, 2018)——理解 sovereign AI 需求的政策背景
- Anthropic 的 Scaling 数据——关注其公开的收入增长与算力建设的相关性
- AMP Grid——Midha 团队构建的基础设施市场追踪系统
- 3Blue1Brown(Grant Sanderson)——Midha 的 Stanford 室友,数学可视化教育的典范
- CS 153 往期讲座(YouTube)——Guillaume Lample(Llama 联合创始人)等嘉宾的往期讲座