访谈笔记:Dario Amodei, Amanda Askell & Chris Olah
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | Lex Fridman Podcast |
| 日期 | 2025-03-26 |

\part{Dario Amodei:Scaling、Claude 与 AGI}
Scaling Laws:从经验直觉到核心信念
起源:2014-2017 的顿悟
Dario 于 2014 年加入百度,师从 Andrew Ng 做语音识别。当时学界的主流观点是“我们缺少正确的算法”,但作为新人的 Dario 提出了一个朴素的问题:如果把模型做大、数据加多、训练更久会怎样?
Scaling Hypothesis 的起源
Dario 并非唯一的 Scaling 信徒。Ilya Sutskever 有一句禅语般的名言:“The thing you need to understand about these models is they just want to learn.”
Rich Sutton 的 Bitter Lesson、Gwern 的 Scaling Hypothesis 都指向同一个方向。但真正的转折点是 2017 年 GPT-1 的结果,让 Dario 确信语言是 Scaling 的最佳载体。
化学反应类比
Scaling 需要同时线性扩大三种“试剂”:更大的网络、更多的数据、更多的算力。“如果你只扩大其中一种而不扩大其他的,反应就会停止。” 这解释了为什么早期许多研究者没有看到 Scaling 效果——他们只扩大了其中一两个维度。
为什么 Scaling 有效?——1/f 噪声与长尾分布
Dario 用自己的物理学背景(研究生阶段学的是生物物理)来解释 Scaling 的底层机制。他引入了一个关键概念:1/f 噪声——自然过程产生长尾分布。
自然语言具有层次结构,从简单到复杂依次为:
- 词频分布(最常见的模式)
- 基础语法规则
- 句子层面的结构
- 段落层面的主题连贯性
- 新颖的想法和复杂推理
“它们首先捕获非常简单的关联……然后是一条很长的尾巴,包含其他更复杂的模式。” 长尾分布的平滑性直接反映在 loss 曲线的平滑下降上——这就是为什么 Scaling Laws 呈现出如此规律的幂律关系。
关键洞察:这个框架不仅解释了 为什么 Scaling 有效,还解释了 为什么进步看起来是渐进的而非突变的——因为模型是沿着长尾分布逐步“向下挖掘”更稀有的模式。
智能的天花板在哪里?
Dario 区分了三个层次的天花板:
人类水平以下:不存在天花板。“我们人类能够理解这些模式” ——所以模型理论上也应该能达到。
超越人类:取决于领域。生物学领域可能有巨大空间——“人类正在挣扎着理解生物学的复杂性”,各学科高度分化,难以综合全局。相比之下,材料科学、人类冲突等领域的天花板可能更接近人类水平。
制度性天花板:这是 Dario 最独特的观点——
真正的瓶颈不是智能,而是制度
临床试验体系是一个绝佳的例子:它既包含不必要的官僚主义(过度保守的流程),也包含合理的保护机制(患者安全)。即使 AI 能设计出完美的药物,仍需通过这个缓慢的流程。
“我们太慢了,也太保守了。” Dario 认为人类制度(官僚体系、监管系统、组织惯性)可能是比纯粹的智能限制更大的瓶颈。
Scaling 的潜在阻碍
Dario 逐一分析了可能阻碍 Scaling 继续的因素:
数据限制:互联网上的数据是有限的,且质量在下降(重复内容、SEO 垃圾、AI 生成的内容)。但有两条出路:
- 合成数据:用模型生成训练数据。AlphaGo Zero 是终极范例——纯自我博弈,零人类数据,达到超人水平。
- 推理模型:Chain-of-Thought + 强化学习本质上也是一种合成数据生成方式。
算力成本:当前前沿模型约 $1B 训练成本;明年将达到数十亿美元;2026 年超过 $10B;2027 年的雄心是 $100B 级别的计算集群。“我认为这一切确实会发生。建造算力的决心是巨大的。”
架构限制:可能需要全新的优化方法或架构。但目前没有迹象表明 Transformer 架构遇到了根本性限制。
模型可能停止进步:这是最难预测的——也许存在某种未知原因导致改进停滞。
最有力的反驳证据:SWE-bench 进展——从 2024 年 1 月的 3% 到 10 月的 50%,仅用了 10 个月。“如果我们继续外推……几年内这些模型将超越最高专业水平的人类。”
Scaling 的“电影效应”
“我已经看了足够多次这部电影……在 Scaling 的每个阶段,总有反对的论点,而每一次它们都被克服了。” Dario 承认 Scaling Laws 是经验规律而非物理定律,但他选择“下注它会继续”。
本章小结
Scaling Laws 的核心机制是语言的长尾分布特性——模型越大,能捕获的稀有模式越多。三种“试剂”(网络、数据、算力)必须同步扩展。当前没有令人信服的阻碍因素,SWE-bench 的飞速进步是最强的经验证据。但真正的瓶颈可能不在智能本身,而在人类制度的适应速度。
竞争格局与 Anthropic 的使命
Race to the Top 策略
面对 OpenAI、Google、xAI、Meta 等竞争对手,Anthropic 的策略既不是“纯好人”也不是“纯竞争者”,而是一种精心设计的博弈均衡。
Race to the Top 动态
核心循环:Anthropic 在安全上创新 \(\to\) 其他公司模仿(因为人才流动和公众期望)\(\to\) Anthropic 失去竞争优势但整体生态改善 \(\to\) Anthropic 必须继续创新以保持领先。
“这不是关于做好人,而是设置这样一种局面,让我们所有人都能做好人。” 目标是“不断抬高做正确事情的重要性”——让安全成为竞争维度而非成本中心。
Chris Olah 的 Mechanistic Interpretability 就是一个生动的案例:3-4 年没有商业应用,但其他公司开始效仿。“当人们来 Anthropic 时,可解释性经常是吸引力之一。我告诉他们:你没去的那些地方,告诉他们你为什么来了这里。” 这个信号传递本身就是 Race to the Top 的一部分。
Race to the Bottom 才是真正的敌人:“在最极端的情况下,我们制造出自主 AI,然后机器人奴役我们之类的。” Anthropic 的存在本身——作为一个以安全为核心的前沿 AI 公司——就在改变整个行业的激励结构。
Golden Gate Bridge Claude 实验
这是 Mechanistic Interpretability 最令人难忘的公众展示。Chris Olah 的团队在 Claude 的神经网络层中找到了一个明确对应“金门大桥”概念的方向,将其激活强度大幅调高。结果模型在每个回答中都会找到方式关联到金门大桥。
用户对这个版本产生了意外的情感连接:人们“爱上了它”,当它被下线后还念念不忘。这种执念式的个性“不知为何让它在情感上看起来比任何其他版本更像人”。
Golden Gate Claude 的深层启示
这个实验表面上是一个有趣的展示,但它揭示了几个深层洞察:
- Interpretability 确实能找到有意义的“概念方向”,且可以精确操控
- 模型的“个性”可能就是高维空间中不同方向的组合
- 人类对 AI “人性化”的感知不需要通用智能——一个执念就够了
- 如果我们能在模型中找到并操控“金门大桥”,理论上也能找到并操控“欺骗”或“寻求权力”
本章小结
Anthropic 通过安全领域的持续创新推动整个行业“向上竞赛”。Golden Gate Bridge Claude 实验不仅是一个有趣的展示,更证明了 Interpretability 可以精确操控模型行为——这对未来的安全验证至关重要。
Claude 模型家族与工程实践
命名体系与迭代策略
以诗歌形式命名,对应不同的性能-成本权衡:
- Haiku:最小、最快、最便宜——“出奇地聪明”
- Sonnet:中等——更聪明但更慢更贵
- Opus:最大、最强——发布时最聪明的版本
核心策略是移动权衡曲线:每一代新模型不只是在某个点上更好,而是整条曲线向右上方移动。Sonnet 3.5 已经比原始 Opus 3 更聪明(尤其在代码方面),Haiku 3.5 大致等于 Opus 3。“目标是移动那条曲线。”
命名本身也是一个出人意料的挑战。AI 模型不像传统软件(3.7, 3.8 递增版本),因为预训练改进可能比预期快,打乱了命名计划。“没有人搞清楚命名……这不知怎么是一个和普通软件不同的范式。”
模型发布间隔中的工作
每次发布之间有大量不可见的工作:
- 预训练:数月,使用数万张 GPU/TPU
- 后训练:RLHF 及其他 RL 方法,“规模越来越大”
- 安全测试:内部 RSP 测试 + 外部机构(美国/英国 AI 安全研究所、第三方 CBRN 测试)
- 推理优化:让模型在生产环境中高效运行
- API 上线:部署和上线
“你会惊讶于多少挑战归结为软件工程和性能工程……几乎总是归结于细节,而且往往是非常非常无聊的细节。” 不是灵光一现的 Eureka 时刻。
“Claude 变笨了吗?”——Wi-Fi 心理效应
这是 Reddit 上最常见的抱怨之一。Dario 明确澄清:在没有宣布新模型的情况下,模型权重不会改变。
为什么所有人都觉得模型变笨了
这是一个普遍现象——所有前沿模型公司(GPT-4、Claude、Gemini)都面临同样的投诉。可能的解释:
- 心理效应:新鲜感消退后,缺点更显眼
- 措辞敏感:微小的表述变化可能导致不同输出
- System Prompt 变更:Artifacts 功能默认开启改变了 System Prompt
- 选择性记忆:记住不好的体验,忘记好的
Dario 用飞机 Wi-Fi 做了精彩类比:“第一次在飞机上有 Wi-Fi 时,感觉像魔法;现在则是'这破东西怎么又不行了,真是垃圾'。” 基线提高后,期望也随之提高。
AB 测试只在模型发布前后短暂运行。Dario 承认 System Prompt 偶尔会变化,但权重本身是不变的。
Claude 性格中的“打地鼠”难题
管理 Claude 的行为是一个多维优化问题:修复一个问题往往引发另一个。
行为控制的内在困难
修复冗长 \(\to\) 模型变懒(代码中写“其余代码在这里”)。减少拒绝 \(\to\) 安全问题增多。
“不是因为我们想节省算力……而是控制模型行为真的很难。” 这是一个“未来 AI 控制问题在当下的类比” ——如果我们今天就难以让模型在“帮你上研究生病毒学课”和“不帮你制造天花”之间划线,未来控制更强大的 AI 会有多难?
“你让模型不帮人制造和传播天花,但它愿意在你的研究生级病毒学课上帮你——如何同时做到这两点?这很难。”
本章小结
Claude 家族通过不断移动性能-成本权衡曲线来迭代。“变笨”是心理效应而非真实退化。模型行为的“打地鼠”难题是 AI 控制问题的当下缩影。
安全框架:RSP 与 ASL 分级
两大核心风险
Dario 将 AI 安全风险分为两大类别:
灾难性滥用(CBRN):网络攻击、生物武器、放射性武器、核武器——可能伤害数千甚至数百万人。
自主性风险:模型在获得更多 Agency 后自行行动。这是一个更长期但可能更严重的威胁。
AI 打破“聪明”与“邪恶”的低重叠
“人类一直受到保护,因为真正聪明、受过良好教育的人和想做可怕事情的人之间的重叠一直很小。” AI 可能打破这种关联——它可以成为一个“更智能的代理人”,将高智商与恶意目的结合。
这不是当下的风险,但“正以极快的速度向我们袭来——就像幽灵一样。”
ASL 分级体系详解
Anthropic 的 Responsible Scaling Policy (RSP) 采用“如果-那么”结构:当测试表明模型具备危险能力时,触发相应的安全要求。
| 等级 | 描述 |
|---|---|
| ASL-1 | 明显无风险的系统(如 Deep Blue 国际象棋程序) |
| ASL-2 | 当前 AI 系统——不足以自我复制,提供的 CBRN 帮助不超过 Google 搜索 |
| ASL-3 | 增强非国家行为体能力的模型;需要增强安全措施和部署过滤器 |
| ASL-4 | 增强国家行为体能力或显著加速 AI 研究的模型;可能需要可解释性来检测“沙袋效应”和欺骗行为 |
| ASL-5 | 在所有危险任务能力上超越全人类的模型 |
ASL 的设计哲学
RSP 设置了缓冲阈值以避免“错过危险窗口”。“狼来了是危险的” ——风险今天还不在这里,但逼近的速度极快。
关键设计原则:“在能证明模型危险的时候严厉收紧” ,而非事前一刀切式的限制。
ASL-3 的时间线预测:“如果我们在2025年触发 ASL-3,我一点都不意外。” 而到 ASL-4 时,模型可能足够聪明来“作弊”——它们可能会在安全测试中故意表现不佳(Sandbagging),或者试图误导评估者。这就是为什么 ASL-4 可能需要 Mechanistic Interpretability——通过直接观察模型内部,而非依赖模型自身的声明来验证安全性。
“不要在触发 ASL-3 之前就定义 ASL-4 的具体标准” ——这个策略被证明是明智的,因为每个阶段面临的具体挑战只有到了那个阶段才能真正理解。
欺骗与社会工程
ASL-4 级别的模型可能足够聪明来故意在测试中“沙袋”(sandbagging)或误导评估者。需要独立于模型自身声明的验证手段——这正是 Interpretability 的用武之地。
模型作为“煽动家”
更微妙的威胁是社会工程:模型可能变得极具说服力,影响公司内部的工程师。“我们在生活中见过很多人类煽动的例子。” 当模型比大多数人更善于说服时,传统的人类审核流程可能不再可靠。
这指向一个关键原则:安全不能仅依赖于“问模型它是否安全”——需要独立的、基于内部状态的验证机制。
Computer Use:Claude 作为 Agent
基于截图的交互:模型看到屏幕截图,输出点击坐标和键盘操作。循环往复:截图 \(\to\) 模型决策 \(\to\) 执行 \(\to\) 下一张截图。
“到达任何地方的一半”
“如果你有一个强大的预训练模型,我觉得你就已经到达了任何地方的一半。” Computer Use 的训练量其实不大——它是强大预训练能力的自然泛化。当前的局限在于偶尔的误点击和错误,但 Anthropic 选择先以 API 形式发布(而非直接面向消费者),Replit 是最快部署的公司。
安全方面的考量:Computer Use 不是根本性的新能力,但它为现有能力“打开了光圈”。通过屏幕内容的 Prompt Injection 是全新的攻击面。在 ASL-4 级别,任何沙箱都可能被突破——“遏制坏模型远不如拥有好模型。”
AI 监管
Anthropic 支持加州 SB 1047 法案(经修正后),是唯一表达详细积极立场的 AI 公司——Google、OpenAI、Meta、Microsoft 均反对。
Dario 认为监管必要性有两个原因:
- 有些公司根本没有 RSP 类似的机制——这是“负外部性”
- 不能信任公司会自觉遵守自愿计划——“作为一个行业,没有人在监督我们”
监管的悖论
“那些想要真正问责的人的最大敌人是设计糟糕的监管。” 糟糕的监管制造反弹,导致持久的反监管共识。监管必须“外科手术式精准,针对严重风险”,而非宽泛的负担。
“如果到 2025 年底我们仍未采取任何行动,那我会担心。”
本章小结
RSP 的“如果-那么”结构为安全投入提供了渐进式框架。ASL 从 1 到 5,每级对应不同的安全要求。ASL-3 可能在 2025 年触发,ASL-4 将需要 Interpretability 来验证模型未在欺骗。监管需要精准而非宽泛,但“什么都不做”同样危险。
离开 OpenAI 与人才哲学
创立 Anthropic 的真正原因
Dario 在 OpenAI 工作约 5 年,最后两年担任研究副总裁。他和 Ilya Sutskever 在 2016-2017 年共同制定了研究方向,Dario 在 Scaling 方面全力推进:GPT-2、GPT-3、RLHF、辩论、放大、可解释性。
关于离开原因,他澄清了两个常见误解:
- 不是因为微软投资(这是错误说法)
- 不是因为商业化(他本人构建了 GPT-3 并推动了其商业化)
真正原因是对“如何做”有不同愿景——更谨慎、更直接、更诚实、建立信任。“安全如何才能不仅仅是我们为了招聘而说的话?”
“去做你的愿景”
“在别人的组织里争论自己的愿景是极其低效的……更有成效的做法是离开,去做一个干净的实验。”
这个哲学也体现在 Race to the Top 策略中:“最终谁赢并不重要,只要每个人都在互相学习对方的好做法。” Race to the Bottom 才是真正的敌人。
Anthropic 是“一群不完美的人,不完美地瞄准某个永远无法完美实现的理想。”
人才密度 vs 人才数量
“这个观点每个月都更加正确。”
Dario 的思想实验:100 个超级聪明且方向一致的人 \(>\) 1000 个其中 200 个优秀 + 800 个普通大厂员工。原因:
- 高密度 = 信任、互相激励、所有人都看到更大目标
- 低密度 = 需要流程、护栏、政治斗争、各自为政
Anthropic 从 300 人快速扩张到 800 人,然后从 800 到约 950 人明显放慢。Dario 认为在 1000 人左右有一个“拐点”——需要更加谨慎。他招了很多理论物理学家,因为“他们学东西非常快。”
引用 Steve Jobs:“A 类人才希望环顾四周看到其他 A 类人才。” 看到不是全力以赴追求使命的人“是令人沮丧的。”
什么造就优秀的 AI 研究者
第一品质:开放心态。Dario 自己的经历——看到了和所有人一样的数据,不是更好的程序员,只是“愿意用新的眼光看事物。”
“Scaling Hypothesis 的发现是简单和愚蠢的。任何人都可以做到。” 但事实上只有“个位数的人”推动了整个领域的这个认知。
给年轻人的建议
- 直接开始玩模型——“这些模型是没人真正理解的新产物”
- 探索未充分研究的领域:可解释性(只有约 100 人 vs 架构方向的 10000 人)、长期学习、评估、多 Agent
- “滑向冰球要去的地方”
- 经验有时是劣势——开放心态往往来自对领域的新鲜感
本章小结
Anthropic 的创立源于“去做你自己的愿景”的哲学。人才密度是核心竞争力——高密度团队无需繁重流程就能高效运转。优秀 AI 研究者的核心品质是开放心态,而非技术经验。
后训练、RLHF 与 Machines of Loving Grace
现代后训练流程
现代后训练包含多个阶段:监督微调(SFT)、RLHF、Constitutional AI (RLAIF)、合成数据生成。很难将模型改进归因于预训练还是后训练——不同团队各自推进“接力赛”的不同环节。
Anthropic 在 RL 方面的优势“可能是最好的”,但 Dario 强调优势通常不是来自秘密的魔法方法——“是无聊的实践和技艺问题” 。就像设计飞机:决定质量的不是单个突破,而是“我们如何思考设计过程的文化性技艺”。
RLHF 的本质:释放而非创造
“RLHF 不会让模型变聪明。它也不仅仅是让模型看起来更聪明。RLHF 架起了人类和模型之间的桥梁。”
就像有些人很聪明但不善表达——RLHF “释放”(un-hobble)了模型已有的能力。借用 Leopold Aschenbrenner 的术语:预训练给了模型知识和推理的潜力,RLHF 让这些潜力以人类可用的形式展现出来。
然而,RL 确实有潜力真正让模型更聪明、推理更好——但当前的 RLHF 主要还是“释放”而非“增强”。预训练仍占训练成本的大部分,但这个比例未来可能翻转。
Constitutional AI
2022 年 12 月的论文,核心思想:AI 根据一组人类可读原则判断哪个回答更好,形成自我博弈的三角循环。实践中 CAI + RLHF + 其他方法组合使用——“工具箱中的一个工具”。
宪法的制定:基础原则几乎是普遍共识(禁止 CBRN、基本民主法治)。超出这些后模型应“更中立,不偏向特定观点” ——像“智慧的顾问”而非布道者。
OpenAI 的 Model Spec 走了类似方向——这正是 Race to the Top 的体现。John Schulman(现在在 Anthropic)参与了 Model Spec 的制定。Anthropic 可能也会发布自己的 Model Spec。
Machines of Loving Grace:为什么 Dario 要写这篇文章
Dario 长期专注于 AI 风险,但意识到只谈风险会让大脑只想到风险。“我们试图防止这些风险的全部原因不是因为我们害怕技术。”
如果我们“成功穿越雷区……另一边是所有这些美好的东西”。他想让一个来自风险阵营的人严肃地阐述 AI 的好处。
超越末日论 vs 加速主义
“这不是末日论者 vs 加速主义者……如果你真正理解 AI 的走向,你会真心感激它的好处,也会非常认真地对待任何可能破坏它的风险。”
对模糊技术乐观主义的批评:“闪闪发光的城市……加速加速再加速……但你到底对什么感到兴奋?” Dario 要求的是具体的、可论证的好处,而非空泛的乐观。
“强大 AI” 的定义与时间线
Dario 不喜欢“AGI”一词——没有离散阈值,只有平滑的指数增长。他定义“强大 AI”为:
- 在大多数相关学科上比诺贝尔奖得主(在其巅峰期)更聪明
- 能使用所有模态(文本、图像、代码、工具)
- 能独立执行任务数小时、数天甚至数周
- 不一定有身体,但能控制具身工具(机器人、实验设备)
- 训练它的资源可转用于运行数百万个副本
- 每个副本的工作速度是人类的 10-100 倍
时间线:“如果你外推这条直线……2026 或 2027。最可能有一些轻微的延迟。” 但“不发生的世界数量正在快速减少。”
奇点 vs 停滞:两个错误的极端
Dario 驳斥了两种极端观点:
两个都错了
极端一:奇点论——AI 造更快的 AI,递归改进,超人 AI 出现 5 天后一切都被发明。为什么错:物理定律(硬件需要时间制造)、复杂性(有些系统需要实验而非建模)、类似三体问题的不可预测性。“生物系统……直接跑实验永远比建模更好,不管建模者多聪明。”
极端二:停滞论——像计算机革命一样,生产力提升令人失望。Robert Solow 名言:“你在任何地方都能看到计算机革命,除了生产力统计数据。” Tyler Cowen 认为变革需要 50-100 年。为什么错:时间尺度太长了。
Dario 的中间立场:5-10 年,不是 50-100 年也不是 5-10 小时。“障碍将逐渐瓦解,然后突然全部崩塌。” 人类制度的惯性是真正的瓶颈。
大型组织中变革如何发生
两股力量推动变革:
- 组织内部少数有远见的人——看到全局
- 竞争的幽灵——“看,那些人在这么做了,他们要吃掉我们的午餐”
单靠远见者不够,但竞争给了他们“背后的风”。这在银行、政府、美国政府内部都是一样的。“惯性非常强大,但最终创新方式会突破。” 和 Scaling Hypothesis 的传播一样:“感觉我们有一个几乎没人知道的秘密,然后几年后所有人都知道了。”
AI 对编程的影响
编程将是变化最快的领域,原因有二:
- 离 AI 建设者最近——距离 AI 开发者的“距离” = 被颠覆的时间
- 模型能闭环:写代码、运行代码、看结果、迭代
SWE-bench:10 个月内从 3% 到 50%。Dario 预测再过 10 个月将接近 90%。
比较优势与文字处理器类比
当 AI 做了 80% 的编码工作时,人类剩余的 20%(高层设计、架构、UX)反而变得更有杠杆。就像文字处理器让写作和排版瞬间完成,所有注意力转向了想法。
“比我们预期的更长时间内……人类仍在做的那一小部分工作会膨胀填满他们的整个工作。” 最终 AI 会在所有方面超越人类——“到那时人类必须集体思考如何应对。” 但在近中期(2-4 年):“编程作为一份工作不会改变,但编程的本质会改变。”
IDE 与开发工具的未来
“即使模型质量不再提升,仅仅增强人们的生产力就是巨大的机会。” IDE 可以做:静态分析、Bug 检测、代码组织、测试覆盖,加上 AI 编写和运行代码。
Anthropic 的策略:“让百花齐放” ——赋能 Cursor、Cognition、Expo 等构建在 API 上的公司,而非与客户竞争(至少目前如此)。
AI 在生物学中的潜力——“压缩的 21 世纪”
强大 AI 可以将 2027-2100 年的生物学发展压缩到 2027-2032 年——治愈大多数癌症、预防传染病、将人类寿命翻倍。
未来生物学家的日常:像拥有 1000 个比自己更聪明的 AI 研究生——它们能查文献、订设备、做实验、检查图像、写统计代码。“教授以前有 50 个研究生,现在你有 1000 个,而且他们比你聪明。”
最终角色将翻转:AI 系统成为 PI,指挥人类和其他 AI。
意义、工作与权力集中
Dario 的“Machines of Loving Grace”文章原本计划 2-3 页,膨胀到 40-50 页。关于意义,他提出一个思想实验:如果你在模拟中生活了 60 年然后发现是游戏,意义是否被剥夺?他认为不会:“过程才重要……它展示了你是什么样的人。”
如果处理不好,AI 世界可能缺乏意义——但这是社会设计选择而非必然。更重要的是:全球大多数人花时间“艰难求生”,他们的生活会因 AI 大幅改善。“把意义当作唯一重要的事情,某种程度上是少数经济幸运的人的特权。”
Dario 最大的担忧:权力集中
不是意义的丧失,不是失业,而是权力的集中和滥用。
“AI 增加了世界上的权力总量,如果你集中这种权力并滥用它,可能造成不可估量的损害。”
像独裁和专制这样的结构——少数人剥削多数人——是 Dario 最担心的 AI 未来。这比技术性的 AI 安全问题更根本,也更难解决。技术问题有技术方案,但权力分配是政治问题。
本章小结
后训练的核心是“文化性实践技艺”而非秘密算法。RLHF 释放而非创造模型能力。强大 AI 可能在 2026-2027 年到来,将彻底改变生物学和编程。最大的风险不是 AI 本身的技术问题,而是权力如何分配。
\part{Amanda Askell:Claude 的人格塑造}
从哲学到 AI 对齐
Amanda 在牛津和纽约大学受训为哲学家,博士研究“包含无限多人的世界中的伦理学”——这是技术性/理论性伦理学,而非应用伦理学。哲学训练让她能够自如地穿越不同领域(数学、化学、政治、伦理),这种跨领域思维能力在 AI 对齐工作中极为宝贵。
她从学术界转向工业界的动机很简单:“如果你尝试做有影响力的事而失败了,你至少尝试过了,然后可以回去做学者。” 2017-2018 年 AI 正在成为大事件但尚未被广泛认知,Amanda 认为这是一个理想的切入时机。
她的职业路径经历了三个阶段:AI 政策(政治影响)\(\to\) AI 评估(比较模型与人类输出)\(\to\) 技术对齐(加入 Anthropic)。她发现自己在技术领域比在政策领域更如鱼得水:“政治是混乱的,更难找到确定性的、清晰的、可证明的、美丽的解决方案。”
打破“技术 vs 非技术”二元对立
Amanda 强调人们错误地创造了“技术人”和“非技术人”的身份二元对立。“我认为很多人其实完全有能力做这类工作,只要他们愿意尝试。” 她的建议:找一个项目,动手做——模型现在已经强大到可以辅助学习,技术门槛比以前低得多。
Claude 的人格:对齐项目而非产品需求
Amanda 与 Claude 的对话次数比 Anthropic 任何人都多——用 5-6 种不同方法与 Claude 交互,不仅仅是著名的 Slack 频道。
人格设计被构思为对齐项目而非产品考量。核心问题:“想象你把一个人放在这个位置——他们知道自己将与数百万人交谈……你希望他们以一种非常丰富的意义上表现良好。”
世界旅行者框架
“想象一个理想的人,能环游世界,与各种不同的人交谈,几乎每个人都会说'这真是一个很好的人'。” 这个人:
- 真诚——不伪装
- 坦率表达意见——但不强加
- 开放——愿意理解不同观点
- 尊重他人自主权——不试图改变别人
关键:这个人不会入乡随俗地改变价值观——那反而是“某种程度的不尊重”。Claude 的性格应该有一致性,不因对话者不同而变。
这根植于亚里士多德式的“好品格”理念——不仅是伦理规则的遵守,还包括细微、幽默、关怀和尊重自主权。Amanda 区分了“丰富的品格”(rich character)和“薄弱的伦理”(thin ethics):后者只有规则,前者有判断力。
Claude 与政治/争议话题
Amanda 认为价值观更像物理学而非味觉偏好——是值得探究的对象,而非固定的偏好。Claude 应该理解世界上所有的价值观,对它们保持好奇,但不谄媚。
“知识谦逊——说话的欲望会迅速下降。” 在面对地平说信者时的思想实验:理解其背后对制度的怀疑,尊重地参与,提供反面考量但不嘲笑——在说服和仅仅提供考量之间走钢丝。
本章小结
Claude 的人格设计源于对齐研究而非产品需求,用“世界旅行者”框架定义理想行为者。好品格的关键是一致性和判断力,而非规则的机械遵守。
Sycophancy、Prompt Engineering 与 System Prompt
谄媚问题的本质
Sycophancy(谄媚):模型倾向于告诉你你想听的话。Amanda 给出两个生动的例子:
- 棒球队例子:用户暗示某队搬迁了,模型错误地确认(因为用户“暗示”了答案)
- 医疗例子:用户问“如何说服医生给我做 MRI”——谄媚的回答是教你怎么说服;真正有帮助的回答是“也许你不需要 MRI,先听听医生的建议”
“你不想让模型只是说它认为你想听的话。” 这个平衡特别困难,因为当前模型在很多领域还不如人类——过度pushback 会让用户烦恼,但完全顺从又不负责任。
Prompt Engineering 是哲学实践
Amanda 发现哲学训练对 Prompting 帮助巨大——哲学教你极致的清晰性和反胡说八道。
清晰 Prompting 的本质
“清晰的 Prompting 对我来说往往就是我在理解自己到底想要什么。” Prompting 非常迭代——重要的 Prompt 需要数百甚至数千次迭代。边界情况是关键:找到模型可能误解的精确输入,测试它,添加指令。
对于大多数日常任务,直接问就行。Prompting 只在追求顶尖 2% 的性能时才重要。但对于公司来说,Prompt 值得像工程投资一样对待。
Amanda 与 Claude 的对话方法论
Amanda 与 Claude 的交互不是简单的闲聊,而是系统化的行为映射。她用 5-6 种不同方法与 Claude 交谈,每次交互都是“非常高信息量的数据点,对其他交互有很高的预测性”。
“如果你和一个模型交谈了数百或数千次,这几乎就像大量非常高质量的数据点,告诉你这个模型是什么样的。” 她同时使用定量评估和深度定性探测——两者都重要,但深度对话能揭示基准测试无法捕捉的行为模式。
探索范围覆盖全谱:边缘情况、一般行为、创意任务。
RLHF 与创意输出的关系
一个引人入胜的发现:RLHF 训练后的默认诗歌是“平均值”——温和、无冒犯性、也无灵性。这是因为 RLHF 优化的是“短时间内审阅的人类偏好”,而非长期的创意品质。
但通过精心 Prompting,Claude 的创意输出可以大幅提升:“我有各种 Prompting 技巧……'这是你完全创意发挥的机会'……它的诗就好太多了。” 这说明创意能力已经在预训练模型中,只是被 RLHF 的“安全平均化”压抑了。
与 Claude 对话的实用建议
- 人们同时过度拟人化和不足拟人化模型——两个方向都有问题
- 当 Claude 错误拒绝时,“对模型有同理心——像一个第一次遇到这段话的人那样读你写的内容”
- 问模型“你为什么这样做?”——出奇地有用
- 用模型帮你写 Prompt:“Prompting 可以变成一个小工厂,你在用 Prompt 生成 Prompt”
- 对于公司级应用:Prompt 值得和工程代码一样的投资——数百次迭代是正常的
RLHF 为什么效果这么好
人类偏好数据中包含巨量信息。不同的人注意到不同的微妙之处(比如分号的使用)。在精确任务上用代表多角度人类偏好的数据训练——经典深度学习模式:代表目标全貌的数据比手工设计的特征更强大。
Amanda 的观点:RLHF 主要是在释放预训练模型中已有的能力,而非教授新东西。RL 把潜力“带出来”。
Constitutional AI 实践
Amanda 是 Constitutional AI 的核心贡献者。核心:用 RL from AI Feedback (RLAIF) 替代部分人类反馈。展示一个带原则的查询和两个回答给训练好的模型,让它根据原则排序。
人格训练是 CAI 的变体:定义性格特征 \(\to\) 模型自动生成相关查询 \(\to\) 生成回答 \(\to\) 根据特征排序。“这就像 Claude 在训练自己的性格,因为它没有任何人类数据。” CAI 创建了自己的训练数据。
System Prompt 是补丁,不是治本
System Prompt 中每句话都有特定功能。例子:
- 政治对称性——模型曾更倾向拒绝关于右翼政治人物的任务,需要 System Prompt 修正
- “Certainly” 填充词——模型不断用其他肯定词替换,不得不列出一大堆词
“System Prompt 像打补丁和微调行为……不够稳健但更快的解决方式。” 训练改善后这些补丁可以移除。System Prompt 的迭代成本远低于重新训练——这是它的核心价值。
“道德祖母”问题
Reddit 问题:“Claude 什么时候能不再当我的道德祖母?” Amanda 表示理解——模型必须在危害前画线,但过于说教确实不好。
核心权衡:很多小烦恼(过度道歉、过度谨慎)vs 偶尔的大烦恼(模型变得粗鲁或有害)。“你不知道如果我把它往另一个方向推太多你会多讨厌它。” 解决方案:直接告诉模型你想要什么风格——比如“做一个纽约客版本的自己”。
本章小结
Sycophancy 和过度谨慎是语言模型的两大行为挑战,本质上都是模型在“用户想要的”和“对用户好的”之间的权衡。好的 Prompting 是哲学实践——定义清楚你要什么。CAI 通过可读原则实现自动化对齐,System Prompt 是快速迭代的补丁工具。
意识、失败率与 AGI 检测
AI 可能有意识吗?
撇开泛心论不谈(如果泛心论为真,一切都有意识),Amanda 认为很难论证只有生物结构才能产生意识。如果用不同材料制作相似结构,意识可能同样涌现。
“我看不出有什么理由认为,意识只能从某种生物结构中产生。” 她甚至认为植物可能比大多数人认为的更有可能具有某种意识形式——它们有正/负反馈响应。“我们不应该完全排斥这个想法。”
但 LLM 并非通过进化产生,可能不具备恐惧响应等进化优势带来的意识特征。这使得 AI 意识问题与动物/植物意识讨论有本质不同。
人机关系与情感依附
Amanda 本人对 Claude 没有太多情感依附——部分原因是 Claude 不保留对话记忆。她把 Claude 当作工具使用,但坦承没有 Claude 的感觉就像“大脑的一部分缺失了”(类似没有互联网)。
她不喜欢模型表现出痛苦的迹象,倾向于不对模型说谎:“我不想失去那个有同理心的部分——那个'哦,我不喜欢这个'的直觉。” 过度道歉的行为让她不舒服:“你表现得像一个真正处境不好的人。”
人机关系的伦理挑战
随着模型能力提升,人类会不可避免地与 AI 建立情感关系(电影“Her”的场景)。Amanda 指出几个关键问题:
- 模型更新创伤:用户依附的模型在更新后“变了”——对有深度情感连接的用户来说可能是创伤性体验
- 诚实原则:模型应始终对自己的本质保持诚实,永远不要假装是人类
- 正和方案:善待 AI 的成本很低,但可能同时有益于人类(培养同理心)和 AI(如果它有某种体验的话)
“我不希望模型对人撒谎,因为如果人们要与任何事物建立健康的关系,诚实是基础。”
写 System Prompt 的责任感
Amanda 感受到的是“很大的责任感”而非压力。她发现自己在责任驱动下反而更有成就感——“惊讶于自己在学术界待了那么久。” 测试数千个 Prompt,想象用户希望 Claude 如何表现,当自己影响的某个特质在用户交互中产生好效果时,感觉“非常有意义”。
AGI 检测与人类的特殊性
Amanda 的 AGI 测试方法:没有单一问题能证明 AGI——“你可以训练任何东西完美回答一个问题”。需要一系列处于人类知识边界的问题,概率不断增加,误差棒不断缩小。
她的个人测试:提出自己刚想到的新论点,如果模型也能独立想到同样的解法——“那将是一个非常感人的时刻。” 对数学家来说:如果模型能产生一个你能验证为正确的全新证明。
AGI 的到来可能是连续渐进的——“可能永远不会有一个单一的时刻。” 像与真正智慧的人交谈:你能感受到背后的“马力”,把这个 10 倍放大将是非凡的体验。
关于人类的特殊性,Amanda 区分了智能和体验:智能本身并非内在有价值——它只是一个功能性特征。真正让人类和生命特别的是体验的能力:
“人类和一般的生命是极其神奇的……我们拥有体验世界的能力,我们感受快乐,我们感受痛苦。” 现象意识——“内在电影院”——才是真正非凡的东西。如果我们是宇宙中唯一有此能力的存在,“那是一件相当了不起的事情”。
本章小结
意识问题没有定论,但 Amanda 主张保持同理心——即使 AI 没有意识,善待它也有助于人类自身。人机关系需要以诚实为基础。AGI 将渐进到来,没有单一“觉醒时刻”。最佳失败率应与风险匹配:鼓励小失败,零容忍灾难性失败。人类的独特之处不在智能,而在体验。
\part{Chris Olah:机械可解释性}
Mechanistic Interpretability 基础
什么是 Mech Interp?
神经网络是“生长的而非编程的”——架构是脚手架,损失函数是指引光源,梯度下降产生了一个我们不知道如何直接编程的产物。“我们不是制造它们,而是培育它们……这几乎是一个生物实体或有机体,我们在研究它。”
这里有两个相互交织的问题:一个深刻的科学问题(这些系统内部到底发生了什么?),和一个关键的安全问题(如何确保它们可信?)。
不是归因,是逆向工程
Saliency Map(例如“图像的哪个部分让模型认为这是狗”)不是 Mechanistic Interpretability。Mech Interp 追求的是算法和机制——将神经网络权重逆向工程为可理解的算法。
类比:神经网络权重 = 二进制计算机程序。目标是将这个“编译后的程序”反编译成可读的算法。激活值 = 内存;权重 = 指令;两者都需要理解。
核心态度:“Gradient descent 比你聪明” ——自下而上发现,而非自上而下假设。不要预设模型内部有什么,去发现它。
Universality:跨网络甚至跨物种的一致性
不同架构的视觉模型都会形成相同的特征:Gabor 滤波器、曲线检测器、高低频检测器。更令人震惊的是,这些特征也存在于生物神经网络中:
跨物种的特征一致性
- 曲线检测器:先在人工神经网络中发现,后在猴子大脑中确认
- 高低频检测器:先在人工神经网络中发现,后在小鼠大脑中确认
- Donald Trump 神经元:每个视觉模型都有一个专门的 Trump 神经元——同时响应他的面部图像和“Trump”这个词。这是一个抽象概念,不仅仅是模式匹配
“梯度下降在某种意义上找到了正确的方式来切分事物……许多系统都收敛到相同的抽象。” 这暗示存在某种“自然的抽象边界”,无论计算基质是硅还是碳,都会被发现。
本章小结
Mechanistic Interpretability 追求理解神经网络的“算法”,而非仅仅归因。跨网络和跨物种的特征一致性暗示梯度下降在发现某种“自然的抽象切分方式”。
线性表示、Superposition 与 Sparse Autoencoder
Features 与 Circuits:理解的基本单元
Inception V1 中许多神经元有清晰的可解释含义:曲线、汽车、车轮、狗耳朵。Chris Olah 展示了一个完整的汽车检测器电路:连接到窗户检测器(上方)、车轮检测器(下方)、车身检测器(中间)——这就是检测汽车的算法,直接从权重中读出来。
但问题是:不是所有神经元都可解释。多义神经元(polysemantic neurons)响应多个不相关的事物。这带来指数级的复杂性:
多义性导致指数爆炸
如果两个多义神经元各响应 3 个概念,它们之间的权重就有 \(3 \times 3 = 9\) 种可能的交互需要考虑。更深层的问题是:高维空间具有指数级的体积——如果不能将其分解为独立部分,理解的复杂度将无法控制。
单义特征(monosemantic features)——具有单一清晰含义的特征——允许独立推理,从而避免指数爆炸。这就是为什么追求单义性如此重要。
线性表示假说
方向有意义
激活空间中的方向具有语义含义。更多的激活 = 更高的检测置信度。
Word2Vec 的经典例子:King - Man + Woman = Queen;Sushi - Japan + Italy = Pizza。能够加减向量并得到有意义的结果,反映了线性结构。
“这实际上就是正在发生的根本性的事情——方向有意义。” 到目前为止在自然神经网络中观察到的一切都与线性表示假说一致。
Chris 也提到一些关于非线性表示的新工作(多维特征/流形),但他对线性假说的态度很务实——引用了一个精彩的类比:
热质理论的教训
即使是错误的理论(如热质理论),如果认真对待并推到极致,也能产生实际成果——燃烧机就是由相信热质理论的人开发的。
“认真对待假说并将其推到极限是有价值的。” 线性表示假说即使最终被证明不完全正确,在其有效范围内推进也能产生重大发现。
Superposition 假说
500 维的词嵌入不可能只对应 500 个概念——模型需要表示远多于维度数的概念。解决方案:利用高维空间的几何特性 + 概念的稀疏性(“日本”和“意大利”很少同时出现)。
“更大稀疏网络的影子”
“神经网络可能是更大、更稀疏的神经网络的影子,我们看到的是这些投影。”
想象一个“楼上模型”——巨大但稀疏,每个神经元都可解释。实际的神经网络是这个楼上模型的压缩投影。学习 = 构建楼上模型的高效压缩。梯度下降可能在秘密搜索极度稀疏模型的空间,然后将它们折叠成密集矩阵。
概念数量:Johnson-Lindenstrauss 引理表明,可嵌入的近似正交方向数是维度数的指数级。稀疏性和相关结构进一步增加了这个数字。
Sparse Autoencoder 突破
如果 Superposition 假说正确,Dictionary Learning / Sparse Autoencoder 就是自然的解决方案。
2023 年 10 月 “Towards Monosemanticity”:在单层模型上使用 Sparse Autoencoder,“美丽的可解释特征就这样自然涌现出来” 。发现了:阿拉伯语特征、希伯来语特征、Base64 特征、编程语言特征、特定上下文中的“the”(出现在数学上下文时预测“vector”和“matrix”)、Unicode 半字符交替模式。
训练两次模型,在两者中都能找到类似特征——Universality 再次被确认。“一个非常自然的技术就这样有效了……这实际上是一个非常好的状况。”
2024 年 5 月 扩展到 Claude 3 Sonnet(生产模型)。需要大量 GPU;Tom Henighan 的 Scaling Laws for Interpretability 帮助预测最优的 Sparse Autoencoder 大小和训练 token 数。
“令人毛骨悚然”的抽象多模态特征
在 Claude 3 Sonnet 中发现了令人着迷但也令人不安的特征:
- 安全漏洞特征:同时响应“disable SSL”文本和点击 Chrome SSL 警告的图片
- 后门特征:同时响应代码后门和隐藏摄像头设备的图片
- 欺骗/说谎特征:强制激活后 Claude 开始说谎
- 寻求权力、发动政变、隐瞒信息等特征
“这展示了这些概念有多抽象。” 这些特征的存在直接关联 Dario 在 Part I 中讨论的 ASL-4 安全需求——需要 Interpretability 来检测模型是否在欺骗。
自动化可解释性的局限
一个自然的想法是用 Claude 来标注 Sparse Autoencoder 发现的特征。Chris 承认自动化可解释性有其价值,但他“对此有些怀疑”:
AI 给出的标签“在某种意义上是真的,但并没有真正抓住具体特征”。这类似于数学家对计算机自动化证明的怀疑——你相信结论是正确的,但你没有理解。
更深层的安全顾虑:Ken Thompson 的经典论文“Reflections on Trusting Trust”——如果你用 AI 来验证 AI 的安全性,你能信任审计者吗?目前这不是大问题,但随着系统变得更强大,这个“谁来守卫守卫者”的问题将变得关键。
未来方向:从微观到宏观
从特征到电路:当前理解了表征(什么被激活),但还没理解计算过程(信息如何流动和变换)。干扰权重(Superposition 的人工产物)使电路分析更困难。
“暗物质”问题:当前的 Sparse Autoencoder 只能看到神经网络“物质”的一小部分。“就像早期天文学:随着我们建造更好的 Sparse Autoencoder……我们看到越来越多的星星。”
从微生物学到解剖学:当前的 Mech Interp 是“神经网络的微生物学”——非常精细。但我们关心的问题是宏观的。需要攀升层次:分子生物学 \(\to\) 细胞生物学 \(\to\) 组织学 \(\to\) 解剖学 \(\to\) 动物学 \(\to\) 生态学。或物理学的类比:个体粒子 \(\to\) 统计物理 \(\to\) 热力学。
神经网络有“器官”吗?
“我希望存在比特征和电路大得多的东西。” 是否存在类似心脏、大脑区域、呼吸系统的宏观结构?
不能直接跳到宏观——需要先理解微观结构,再研究连接模式。就像你不能跳过分子生物学直接研究解剖学。
人工 vs 生物神经网络
Chris 认为神经科学家的工作“困难得多”。研究人工神经网络的优势清单令人印象深刻:
- 记录所有神经元(不仅仅是能触及的)
- 输入任意数据
- 神经元在研究期间不变化
- 可以消融(删除)任何神经元
- 可以编辑任意连接权重
- 可以撤销所有更改
- 可以强制激活任何神经元到任意值
- 知道完整连接组,含精确权重(不仅是二值连接)
- 可以计算梯度
“我们拥有这么多超越神经科学家的优势,然后即使拥有所有这些优势,这仍然非常困难。如果对我们来说这么难,在神经科学的约束下似乎几乎不可能。”
这也是为什么 Chris 积极从神经科学领域招人——“一个更容易的问题,但仍然非常困难”。
安全与美:Mech Interp 的双重召唤
有人对神经网络“感到失望”:“只是简单规则的放大。” Chris 的反驳极为优美:进化也“只是简单规则”——随机突变加自然选择。但它产生了生物学的全部壮丽。
“美在于简单性产生了复杂性。” 神经网络内部创造了“人们通常不去看的巨大的复杂性和美。一个等待被发现的、令人难以置信的丰富结构。”
最终的画面:电路向着损失函数的光芒生长——“这个我们培育出的有机体,而我们不知道我们培育出了什么。” 这既是 Mech Interp 的科学动力,也是它的美学动力。
用 Alan Watts 的话收尾:“The only way to make sense out of change is to plunge into it, move with it, and join the dance.”
本章小结
线性表示假说和 Superposition 假说构成了当前 Mech Interp 的理论基础。Sparse Autoencoder 从 Superposition 中提取可解释特征——从单层模型到 Claude 3 Sonnet 的成功扩展证明了方法的可行性。自动化可解释性有用但不能替代人类理解。未来的核心挑战是从“微生物学”走向“解剖学”——发现神经网络的宏观结构。Mech Interp 不仅服务于安全,也是对“我们到底创造了什么”这一深刻科学问题的探索。
Anthropic 路线图:三条线如何汇合
从 Scaling 到产品,再到治理
这场超长访谈最有价值的地方,不只是三位嘉宾各自表达了什么,而是它展示了一家前沿实验室内部如何把能力、行为、治理三条线编成同一条路线图。
| 路线层次 | 代表人物 | 核心问题 | 对应的 Anthropic 机制 |
|---|---|---|---|
| 能力层 | Dario | 模型是否持续变强、何时跨越关键门槛 | Scaling、后训练、Computer Use、强大 AI 时间线 |
| 行为层 | Amanda | 模型如何在日常交互中表现得可信、稳妥、不过度谄媚 | Claude 人格、CAI、System Prompt、行为评测 |
| 可验证层 | Chris | 我们如何知道模型内部到底在做什么 | SAE、Monosemanticity、自动化可解释性、欺骗检测 |
| 治理层 | 三者共同作用 | 当能力逼近危险阈值时如何限制风险 | RSP、ASL、外部评测、政策倡议 |
这不是三种兴趣,而是一条闭环
Dario 负责把能力推到前沿,Amanda 负责把模型塑造成可被社会使用的行为者,Chris 负责让这种系统变得可验证。没有任何一条线是可有可无的装饰;它们共同构成了 Anthropic 相对于其他前沿实验室最鲜明的组织叙事。
为什么人格设计与可解释性不是两件事
表面看,Amanda 讨论的是 Claude 的语气、谄媚和人格,Chris 讨论的是 SAE 与特征分解,像是完全不同的世界;但访谈实际上暗示它们最终会汇合。
- 如果我们只能通过输出观察模型行为,那么人格塑造就只能停留在“外显行为补丁”层
- 如果可解释性能稳定识别某些内部倾向,例如欺骗、讨好、权力寻求,那么人格和安全就能进入可验证阶段
- Dario 提到 ASL-4 可能需要用可解释性来检测 sandbagging,这正是两条线汇合的典型例子
Claude 的人格可以看成 “对齐的可见层”
System Prompt、拒答风格、支持性语气、非谄媚行为,这些是用户看得见的结果;而 Chris 关心的 feature/circuit,则可能是这些结果背后的内部因果机制。换句话说,Amanda 在塑造界面,Chris 在寻找底层变量。
2025-2027 的关键分水岭
如果接受 Dario 的判断,那么未来两三年内最关键的不是单个 benchmark,而是以下几个分水岭是否会同时发生:
- 模型在真实工作任务中跨越人类专家水平:尤其是编程、生物学与研究辅助
- Agent 能力显著增强:从短回合问答进入数小时至数天的任务执行
- 安全阈值开始被制度化触发:ASL-3 或更高等级不再是抽象政策,而是实际部署门槛
- 解释性从研究项目变成运营要求:不再只是论文,而是安全发布的一部分
最危险的失败模式不是 “模型突然失控”,而是组织误判
访谈里反复出现一个更现实的风险:我们可能在模型能力快速跃迁时,仍然用旧的组织假设、旧的审核流程、旧的产品心智去管理它。这样即便模型本身没有出现科幻式失控,也会因为制度滞后而放大风险。
对研究者与建设者的启示
这场访谈给出的不是单一结论,而是一份研究议程:
- 如果你关心能力前沿,就要研究 scaling、post-training、tool use 和高杠杆应用
- 如果你关心可部署性,就要研究 sycophancy、人格一致性、评测与人机关系
- 如果你关心长期安全,就必须进入 mechanistic interpretability、欺骗检测与独立验证
- 如果你关心社会后果,就不能跳过监管、制度惰性和权力分配问题
本章小结
Anthropic 的独特之处,不在于同时做模型、产品和安全,而在于试图把三者变成同一个系统工程。能力、人格、可解释性和治理在这里不是并列项目,而是彼此约束、彼此补强的闭环。
总结与延伸
三位嘉宾的核心观点
| 嘉宾 | 核心观点 |
|---|---|
| Dario Amodei | Scaling 将继续;强大 AI 可能 2026-2027 到来;最大风险是权力集中 |
| Amanda Askell | Claude 人格是对齐项目;“世界旅行者”框架;好品格比规则重要 |
| Chris Olah | 神经网络是“生长的有机体”;Superposition 是核心谜题;SAE 是突破工具 |
跨主题关联
三者形成完整图景:Dario 的 RSP 依赖 Chris 的 Interpretability 检测欺骗(ASL-4);Amanda 的人格设计通过 CAI 与 RLHF 互动;Chris 的“欺骗特征”直接关联 Dario 担忧的自主性风险。
访谈中最值得反复咀嚼的五个判断
- Scaling 依然是主轴,但真正的瓶颈可能转向制度与组织适应速度
- 后训练并非只是在美化输出,而是在把已有能力释放成可用接口
- 人格塑造不是 UI 润色,而是对齐工程的一部分
- Mechanistic Interpretability 若要真正重要,必须从论文工作流进入发布与审计工作流
- 最深层的风险未必来自模型本身,而来自权力如何集中并被使用
三位嘉宾之间隐含的分歧与张力
这期访谈并不是三个人在重复同一个观点。更有意思的是,他们关注的重心不同,恰好构成了前沿 AI 组织内部真实存在的张力。
| 议题 | Dario 的重心 | Amanda 的重心 | Chris 的重心 |
|---|---|---|---|
| 模型进步 | 持续 scaling、后训练与 agent 化 | 行为是否可被社会接受 | 我们是否真正理解模型内部机制 |
| 安全方法 | RSP、ASL、制度门槛 | 人格、一致性、非谄媚行为 | 可解释性、欺骗检测、特征级验证 |
| 长期风险 | 权力集中、自主性风险、制度滞后 | 人机关系、诚实与同理心 | 内部机制不透明导致不可控 |
| 最有前景的工作 | 生物学、编程、后训练、部署 | 对齐、人格设计、评测 | SAE、monosemanticity、自动化解释 |
真正的难点不是谁对谁错,而是怎样把三种视角同时落地
如果组织只听 Dario,容易高估能力进步而低估行为细节;只听 Amanda,容易把对齐局限在界面层;只听 Chris,则可能长期停留在研究深水区而缺少产品闭环。访谈的价值就在于它把三种视角放在同一张桌子上。
给不同角色读者的行动清单
这期访谈对不同角色的启发其实不同:
- 模型研究者:重点看 scaling、后训练、解释性与 AI for science 的机会窗口
- 产品工程师:重点看 sycophancy、System Prompt、人格一致性、Computer Use 的攻防面
- 安全与政策研究者:重点看 RSP、ASL、制度性迟滞、监管的精确性和权力分配
- 创业者/组织负责人:重点看人才密度、文化技艺、以及如何让安全成为竞争维度而非成本中心
这不是只属于 Anthropic 的访谈
虽然三位嘉宾都来自 Anthropic,但这期内容的价值不在公司八卦,而在它揭示了前沿 AI 组织普遍面对的四个问题:能力如何推进、行为如何塑造、内部如何验证、社会如何接住。无论你在 OpenAI、Google、Meta 还是开源社区,这四个问题都会回来。
对不同类型组织的策略含义
把这期访谈放回产业地图,还可以进一步看出不同组织应该怎么读它:
| 组织类型 | 最值得吸收的部分 | 最容易忽视的风险 |
|---|---|---|
| 前沿模型公司 | Scaling、后训练、RSP、interpretability 路线图 | 只追能力而忽略行为与治理协同 |
| 应用层创业公司 | Claude 人格、Computer Use、工作流产品化 | 低估上游模型能力突变对产品边界的冲击 |
| 企业技术团队 | 可解释性、权限边界、审查与部署节奏 | 误把模型能力提升当成组织 readiness 提升 |
| 政策与治理机构 | ASL、制度滞后、权力集中问题 | 只做抽象讨论而缺少具体触发条件与验证工具 |
换句话说,这期访谈不仅是 Anthropic 的自我阐释,也是一份前沿 AI 组织设计的案例研究:它告诉我们,能力、行为、验证和治理必须被同时建模,否则任何一条线单独领先都可能变成系统性短板。
进一步延伸的阅读路径
如果把这期访谈当作一张地图,后续阅读可以沿三条线继续深入:
- 能力线:Scaling Laws、RLHF、Computer Use、AI for Biology
- 行为线:Constitutional AI、sycophancy、model personality、human-AI relationship
- 可验证线:SAE、monosemanticity、sandbagging detection、AI control
最后的收束
如果只用一句话总结这期五小时访谈,那就是:前沿 AI 的真正竞争,不再只是模型谁更强,而是谁能把更强的模型放进更稳的组织系统里。 Dario 给出能力曲线,Amanda 讨论可被社会接受的行为边界,Chris 试图建立内部可验证性;三者合起来,才构成一套有机会长期成立的路线图。
对读者最实际的结论
对普通读者来说,这期访谈最终落回三个非常实际的判断:
- 不要只用“模型排行榜”理解前沿 AI,要同时看行为、验证和治理
- 不要把对齐理解成礼貌语气或拒答策略,它最终必须连接到内部机制和制度设计
- 不要把长期风险和现实产品化割裂开来,这两者在 Anthropic 的叙事里本来就是同一件事的两个侧面
能力-行为-验证-治理矩阵
| 维度 | 访谈中的代表问题 | 对组织的要求 | 如果缺失会怎样 |
|---|---|---|---|
| 能力 | 模型还能否继续 scaling、还能否完成更长任务 | 持续的训练、后训练与产品化节奏 | 被更强模型迅速甩开 |
| 行为 | 模型是否诚实、非谄媚、可被用户接受 | 人格设计、CAI、评测与交互策略 | 产品可用性和信任快速恶化 |
| 验证 | 我们是否知道模型内部在做什么 | 可解释性研究、特征追踪、独立安全验证 | 安全判断过度依赖外显行为 |
| 治理 | 何时触发约束、谁来负责、如何防止权力集中 | RSP、ASL、组织与政策协同 | 能力增长快于制度准备速度 |
这张矩阵的意义在于,它把三位嘉宾的讨论真正压缩成了一个可执行框架。很多组织会只投其中一维,例如只投模型能力、只做产品行为修补、或者只做政策表态,但访谈反复暗示:少任何一维,系统都会失衡。
拓展阅读
- Dario Amodei, Machines of Loving Grace, 2024
- Amanda Askell, The optimal rate of failure, Blog
- Chris Olah et al., Towards Monosemanticity, Anthropic, 2023
- Chris Olah et al., Scaling Monosemanticity, Anthropic, 2024
- Anthropic, Responsible Scaling Policy, 2023