跳转至

Ep137 Bv8Ghytff9W

LaTeX 源码 · 备用 PDF · 观看视频

导读:这期为什么是 AI for Math 的入口课

这期访谈主角洪乐潼 Carina Hong,是 Axiom Math 创始人,方向是 AI for Math:让 AI 参与数学问题求解、证明形式化、证明搜索和数学研究协作。视频标题里的关键词很多:Lean、数学天书中的证明、直觉、被创造与被发现、Axiom、Ken Ono、Neo Lab。这些词共同指向一个问题:如果 AI 要进入真正数学研究,它要学会的不只是解题,还要理解数学语言、证明结构、形式系统和数学家的直觉。

本期核心命题

AI for Math 的关键,不是让模型做更多竞赛题,而是把数学直觉、非形式证明、形式化语言、proof assistant 和机器验证接成闭环。Lean 不是装饰,而是把“看起来对”变成“机器可检查”的关键接口。

视觉策略说明

本视频是固定访谈画面,没有教学 slides、白板或产品演示。按本仓库播客标准,正文不重复插入人物帧;封面用于来源识别,正文用概念图、路线图和术语表承载教学内容。

本章小结

这期不是普通创业访谈,而是 AI for Math 的概念入口:它同时讨论数学哲学、形式化证明、Lean、创业路线、研究直觉和 Neo Lab 的资源结构。

讲义式导读:如何判断一个 AI for Math 系统是否靠谱

学习本期时,可以把“AI for Math 系统是否靠谱”拆成六个问题。第一,它能否准确理解数学对象和定理陈述,而不是只做自然语言 paraphrase。第二,它能否把非形式证明转成 Lean/Coq 等 proof assistant 可检查的形式。第三,它能否在证明失败时读取 goal state,并修复而不是重写一段幻觉文本。第四,它能否利用定理库,而不是每次从零开始。第五,它能否给数学家带来研究速度提升,而不只是做已知题。第六,它是否能解释证明为什么有意义。

六问法

一个 AI for Math 系统若只满足前两问,它更像 formalization 工具;若能满足第三、第四问,它开始具备 Agent 能力;若能满足第五、第六问,它才接近数学研究伙伴。

为什么这六问重要

它们把“AI 会不会数学”从模糊问题拆成可检查能力。理解对象对应语义能力;形式化对应语言与类型系统能力;读取 goal state 对应环境反馈;利用定理库对应检索和记忆;提升研究速度对应产品价值;解释意义对应数学审美。高标准 AI for Math 需要这些能力共同出现。

本章小结

这六问会贯穿后文。读者不必先懂 Lean 细节,也能用它判断不同 AI for Math 路线到底是在做题、做证明,还是在尝试进入真正研究。

数学是被发现的,还是被创造的

访谈早段讨论“被创造的与被发现的”。这是 AI for Math 的哲学底色。若数学是被发现的,AI 需要学习客观结构:素数、对称、拓扑、曲率和证明之间的稳定关系。若数学是被创造的,AI 需要学习人类如何选择定义、公理、记号和理论语言。现实中两者交织:数学对象有客观约束,数学语言和证明路径又由人创造。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{math-created-discovered.png}
\caption{数学的两种视角:被发现的结构与被创造的语言。}
\end{figure}

读图:为什么 AI for Math 同时面对两层任务

左侧强调数学结构的客观性,右侧强调数学语言和公理系统的创造性。AI for Math 不能只做模式匹配,也不能只生成漂亮文字;它既要捕捉稳定结构,又要把推理写成可验证语言。

bounded attention 与 free attention

访谈中出现 bounded vs free attention 的说法,可以理解为数学思考的两种模式:bounded attention 围绕定义、条件、目标和已有工具局部推进;free attention 则允许联想、审美、类比和跳跃。数学研究需要在二者之间切换:形式化证明偏 bounded,猜想和直觉生成偏 free。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{bounded-free-attention.png}
\caption{数学直觉中的 bounded attention 与 free attention。}
\end{figure}

读图:两种注意力分别服务什么

Bounded attention 适合证明检查、局部推理和 Lean 形式化;free attention 适合发现模式、提出猜想和跨领域类比。一个强 AI for Math 系统需要二者协同,而不是只会严格搜索或只会发散联想。

不要把直觉和形式化对立起来

数学直觉不是形式化的敌人。好的形式化系统把直觉变成可检查对象;好的直觉则帮助选择值得形式化的问题和证明路线。

本章小结

AI for Math 的难点来自双重结构:数学既像客观世界,又像人类语言工程。模型必须在自由联想和严格验证之间来回切换。

AI for Math 技术栈:从直觉到可验证证明

很多人把 AI for Math 简化成“模型会不会做数学题”。这只是最浅的一层。真正的目标,是让 AI 从问题、猜想、非形式推理出发,逐步走向形式化陈述、证明搜索、机器验证和人类反馈。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{ai-for-math-stack.png}
\caption{AI for Math 技术栈:从问题到验证再到数学家反馈。}
\end{figure}

读图:AI for Math 不是单点模型能力

图中每一层都可能成为瓶颈:问题理解需要语义和背景知识;非形式推理需要直觉;形式化需要 Lean/Coq 语言;证明搜索需要定理库和 tactic;验证需要 proof assistant;最后还需要数学家判断方向和意义。

术语消化:AI for Math 关键词

术语 解决的问题 与本期关系
Lean 形式化数学语言和 proof assistant 把自然语言证明转成机器可检查证明。
Coq 另一类 proof assistant 说明形式化证明不止 Lean 一条路线。
Tactic 自动或半自动证明步骤 让模型能逐步构造可检查证明。
Theorem Proving 定理证明 AI for Math 的核心任务之一。
Verifier 验证器 判断证明是否合法,避免“看起来对”的幻觉。
Formalization 形式化 把论文、定义、猜想写进可验证系统。

为什么 proof assistant 是关键

数学自然语言证明经常省略步骤,依赖读者背景和直觉。Proof assistant 要求每一步都符合规则。对 AI 来说,这是一种强反馈:生成的证明要么被 kernel 接受,要么失败并给出目标状态。这种反馈比主观评分更硬,也更适合训练和评估。

可验证性是 AI for Math 的护城河

数学是少数能提供强验证信号的高价值领域。Lean/Coq 等系统让模型输出不只是“像证明”,而是必须通过机器检查。这使 AI for Math 同时具备科学价值和工程可训练性。

本章小结

AI for Math 的技术栈包括直觉、形式语言、证明搜索和机器验证。真正困难的是把这些层连起来,而不是只在某一层做题。

把数学变成 Lean:形式化证明闭环

把数学变成 Lean,不是简单翻译。自然语言证明常常省略背景、跳步、依赖图形直觉或引用不明确的定理。Lean 需要明确对象类型、定理陈述、依赖、tactic 和每一步合法性。这让 AI 既有机会,也有约束。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{lean-proof-loop.png}
\caption{从自然语言证明到 Lean 验证的闭环。}
\end{figure}

读图:Lean 闭环为什么适合训练

自然语言证明先被转成 formal statement,再生成 tactic 或 proof term,Lean kernel 检查是否合法。如果失败,系统返回 error/goal state,人或模型据此修复。这个闭环提供了比普通文本生成更强的训练反馈。

形式化的三类难点

第一是语义难点:自然语言里的“显然”“由此可得”需要展开。第二是库依赖难点:Lean 里定理、定义、lemma 的名字和使用方式必须准确。第三是搜索难点:证明空间巨大,模型需要决定先证哪个子目标、调用哪个 lemma、何时重写目标。

Lean 不会自动让模型懂数学

Lean 能验证证明是否合法,但不会替模型选择重要问题,也不会自动提供数学审美。AI for Math 还需要人类数学家的直觉、问题选择和理论品味。

数学天书中的证明

访谈标题提到“数学天书中的证明”,可以理解为数学中那些优雅、短小、仿佛来自天书的证明。AI 若只是暴力搜索,可能产出冗长证明;若能学习数学直觉和审美,才可能接近这类证明。形式化验证保证正确性,但优雅性仍需要审美评价。

正确性与优雅性

机器验证解决“对不对”,但不直接解决“好不好”。数学研究还关心证明是否解释了现象、是否揭示结构、是否可推广。AI for Math 的长期目标应同时追求正确性、可读性和洞察力。

本章小结

Lean 让证明变成可执行、可检查对象。AI for Math 的关键,是把自然语言直觉和机器验证闭环连接起来,同时不丢掉数学审美。

从题目求解到数学研究

AI for Math 可以分成不同层级:做题、形式化证明、证明补全、猜想生成、研究协作。越往后,越接近真正数学研究,也越难评估。竞赛题有答案,Lean 证明有 verifier,研究问题则需要判断“值不值得做”。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{ai-for-math-roadmap.png}
\caption{从数学题到数学研究的 AI for Math 路线图。}
\end{figure}

读图:为什么越往右越难

题目求解通常有答案;形式化证明有 proof assistant 检查;证明补全有局部目标;猜想生成和研究协作则需要审美、方向判断和长期理论结构。越接近研究,越不能只靠 benchmark。

数学家的直觉

访谈后半段讨论“数学家的直觉”。直觉不是玄学,而是长期训练后对结构、反例、证明路线和审美的压缩判断。AI 可以通过大量数据和反馈学习模式,但是否能形成类似数学家直觉,取决于它是否能把形式化反馈、非形式推理和研究目标整合起来。

直觉可以被训练,但不等于数据拟合

数学直觉来自问题选择、失败经验、结构类比和审美判断。AI 可以从证明库、论文、交互反馈和数学家修正中学习,但需要长期闭环,而不是一次性监督数据。

登月要么成功,要么失败

访谈中“登月要么成功,要么失败”的表达,体现了 AI for Math 创业的高风险性质。数学研究不像普通应用,可以小步验证商业指标;它要么真的推动证明和发现能力,要么只是漂亮 demo。Axiom 这类 Neo Lab 的难度就在于:要同时做科学、产品、团队和融资。

AI for Math 的评估不能只看融资

大额融资和顶级数学家加入是信号,但不是结果。真正结果要看是否能产出可验证证明、加速数学家工作、形成可复用定理库和研究协作模式。

本章小结

AI for Math 的路线从做题走向研究协作。越靠近研究,越需要数学家的直觉、形式化系统和长期反馈,而不是单一 benchmark。

Axiom 与 Neo Lab:AI for Math 创业需要什么

视频描述中提到,Axiom 完成 2 亿美元 A 轮融资,估值 16 亿美元;Ken Ono 离开或暂停传统教授路径加入 Axiom 也引发关注。无论具体媒体叙事如何,这说明 AI for Math 已经从学术问题变成高资本密度 Neo Lab 问题。

图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.92\textwidth]{ai-math-neolab.png}
\caption{AI for Math Neo Lab 的组成:数学家、形式化系统、模型训练、资金算力和产品目标。}
\end{figure}

读图:Neo Lab 不是普通创业公司

图中五个要素共同指向 Axiom 这类组织:顶级数学家网络提供问题和审美,Lean/Coq 提供形式化基础,模型训练提供自动化能力,资金算力支撑规模实验,产品目标把研究转成可用系统。

为什么数学家网络重要

数学数据不是普通网页数据。真正有价值的问题、证明路线、定理库组织和审美判断,往往掌握在数学家社区中。Ken Ono 这样的数学家加入,不只是背书,更可能带来问题选择、研究网络和验证标准。

AI for Math 的数据飞轮

如果系统能帮助数学家形式化证明、补全 lemma、发现反例,数学家又能反馈修正和评价,这就可能形成数据飞轮。没有数学家参与,模型很容易停留在题库和表面证明。

最不可能创业的创业者

访谈里洪乐潼谈到“最不可能创业的创业者”。这类 Neo Lab 和传统应用创业不同:创始人要理解数学、AI、形式化系统、研究组织和融资。它更像把研究院、模型团队和产品公司压缩成一个高密度组织。

研究导向创业的双重风险

如果太学术,产品和收入路径不清;如果太产品化,可能失去基础研究深度。AI for Math 需要在科学目标和工程落地之间保持张力。

本章小结

Axiom 代表一种新型 AI Lab:研究问题足够基础,资本密度足够高,团队需要同时连接数学家、形式化系统和模型训练。它不是普通 SaaS 创业,也不是传统学术实验室。

术语消化:本期关键词索引

术语 一句话解释 在本期中的作用
AI for Math 用 AI 帮助数学求解、证明、形式化和研究协作 全文核心方向。
Lean 形式化数学语言和 proof assistant 把证明变成机器可检查对象。
Proof Assistant 帮助书写和验证形式证明的软件系统 提供强 verifier。
Formalization 把自然语言数学转成形式系统 AI 与数学库连接的关键步骤。
Tactic proof assistant 中推进证明的策略命令 模型可以生成或搜索的动作。
Verifier 检查输出是否合法的机制 让训练和评估获得硬反馈。
Bounded Attention 受目标和定义约束的局部注意力 支撑严格证明和形式化。
Free Attention 开放联想和审美判断 支撑猜想和新证明路线。
Neo Lab 高资本密度、研究导向的新型 AI 实验室 Axiom 的组织类型。

本章小结

本期术语围绕一个中心展开:如何把数学从人类直觉和自然语言,转成可验证、可训练、可协作的 AI 系统。

与前两期的连接

EP139 苏煜访谈讲 Agent 技术史,EP138 罗福莉访谈讲 Agent 范式如何改变模型实验室,EP137 洪乐潼访谈则把 AI 的前沿推进到数学研究。三期连起来,是从通用数字代理、模型实验室组织,到科学发现系统的连续图谱。

三期连读的主线

EP139 解释 Agent 为什么成为新范式;EP138 解释模型团队如何为 Agent 重配后训练和算力;EP137 解释 AI 如何进入数学这种高度形式化、可验证但又依赖直觉的领域。

本章小结

AI for Math 是 Agent 时代的一个高价值科学分支。它把工具使用、形式验证、长期推理和人类专家协作放进同一个问题里。

深水区:数学直觉、Lean 生态与研究协作

前面几章把 AI for Math 拆成了技术栈,但洪乐潼访谈真正有趣的地方在于:她并不把数学看成单纯的“题目集合”。数学研究里有审美、有失败、有长期投入,也有共同体认可。AI 如果只会在已知题库里生成答案,距离数学研究仍然很远;如果能帮助数学家发现结构、形式化证明、补全缺失 lemma、检验反例,它才真正进入研究过程。

为什么数学不是普通 NLP 任务

普通 NLP 任务常常允许语义近似:摘要可以有不同措辞,翻译可以有多个等价表达,聊天回答也允许风格差异。数学证明不同:一个关键条件漏掉,整个证明就可能失败。形式系统把这种严格性推到极致,要求每一个对象、类型、依赖和推理步骤都合法。

数学任务的特殊性

数学同时拥有强形式约束和强创造性。强形式约束来自 proof assistant 与定理验证;强创造性来自猜想、审美、定义选择和证明路线设计。AI for Math 必须同时处理这两端。

Lean 生态为什么重要

Lean 的价值不只是验证器,而是生态:mathlib 定理库、社区贡献、形式化风格、tactic 传统、教学材料和数学家参与。模型若要写 Lean 证明,需要理解库里有什么、定理如何命名、哪类 tactic 常用、失败目标如何解读。这和普通代码补全很像,但约束更严格。

Lean 与代码的相似和不同

相似处在于二者都有语法、类型、库、错误信息和可执行反馈;不同处在于 Lean 的目标不是运行程序,而是证明命题。程序可以靠测试覆盖常见情况,证明则必须满足所有情况。

证明搜索不是线性生成。一个定理可能需要先构造中间 lemma,选择归纳变量,转换目标形式,调用已有定理,或先证明反例不存在。搜索空间巨大,错误路径也很多。AI 的优势在于可以并行尝试和利用语义先验;劣势在于容易生成看似合理但库中不可用的步骤。

证明搜索的常见失败

模型可能知道数学思路,却不知道 Lean 库里对应定理叫什么;也可能知道 tactic,却把目标变成更难的形式;还可能生成自然语言上成立但形式系统缺少前提的证明。失败信息本身就是训练数据。

本章小结

AI for Math 的核心不是“模型更聪明一点”,而是把数学研究拆成可反馈的闭环:直觉提出方向,形式化约束过程,验证器提供硬反馈,数学家判断意义。

Axiom 路线的关键判断:为什么要做研究型公司

Axiom 这样的 Neo Lab 不是普通应用公司。它要面对一个很深的产品悖论:数学研究的最终用户很少,短期商业化不如通用 AI 应用清晰;但一旦系统真正提高数学研究速度,它可能影响科学、工程、密码学、物理、材料和 AI 自身。高风险和高上限同时存在。

Ken Ono 事件的信号

媒体叙事喜欢讲“57 岁终身教授给 24 岁创始人打工”,但更值得关注的是信号本身:顶级数学家愿意把时间放到 AI for Math 上,说明他们认为这不是玩具。数学家加入带来的不是宣传价值,而是问题选择、研究审美、证明质量判断和社区连接。

为什么数学家不可替代

AI 可以生成证明候选,但数学家决定哪些问题重要、哪些证明有解释力、哪些方向值得投入。AI for Math 若脱离数学家共同体,很容易退化成题库自动化。

融资不是结果,而是 runway

Axiom 的大额融资说明资本愿意押注 AI for Math,但融资只是 runway。真正要验证的是:它能否构建可持续的定理库贡献、证明自动化工具、数学家工作流和研究协作产品。否则融资规模只会放大压力。

Neo Lab 的风险

研究型公司容易两头不靠:学术界认为它太商业,商业世界认为它太基础。要穿过这个夹缝,需要一个能被验证的中间产物,例如形式化证明效率提升、定理库增长、数学家协作平台或高价值研究突破。

本章小结

Axiom 的路线不是“做一个数学聊天机器人”,而是试图把数学家、形式化系统和模型训练组织成研究机器。它的风险和价值都来自这个定位。

从数学到更广义的科学发现

AI for Math 之所以重要,还因为数学是科学发现中最形式化、最可验证的一块。如果 AI 能在数学中形成“提出猜想--构造证明--机器验证--人类评价”的闭环,那么类似方法可能迁移到物理、材料、程序验证和算法发现。

为什么数学是试验场

数学有三个优势。第一,正确性可以被形式化系统强验证。第二,历史数据和定理库具有结构化积累。第三,数学家社区对优雅、解释力和重要性有清晰但难以量化的评价传统。这使它既适合机器训练,也能暴露机器训练的不足。

科学发现的三类反馈

数学提供形式验证;代码提供测试和运行反馈;实验科学提供观测和实验反馈。三者都是 AI 从语言生成走向真实发现的关键环境。EP139 的 Agent、EP138 的模型实验室、EP137 的 AI for Math,其实都在寻找可反馈环境。

人机协作的终局

AI for Math 的理想终局未必是“替代数学家”。更现实也更有价值的形态,是 AI 帮数学家形式化繁琐证明、搜索 lemma、发现反例、整理文献、提出候选猜想;数学家则负责问题品味、方向选择、解释和最终判断。这样,AI 成为研究伙伴,而不是单纯自动答题器。

从工具到伙伴

当 AI 只做局部步骤,它是工具;当 AI 能理解上下文、积累经验、提出候选方向并接受验证,它开始像研究伙伴。AI for Math 是这个转变的高难度样板。

本章小结

数学是 AI 进入科学发现的高价值试验场。它的强验证性让训练更清晰,它的审美和直觉又提醒我们:科学发现不能被简化成单一指标。

阅读地图:从 EP137 到后续队列

EP137 在Zhang Xiaojun AI 队列里的位置很特殊。EP140 和 EP138 更偏模型实验室与 Agent 产业范式;EP139 提供 Agent 技术史;EP137 则把问题推向科学研究与形式化证明。它是从“AI 改变生产力”到“AI 改变知识生产”的桥。

读者应该带走的五个问题

第一,AI 能否从题目求解走向真正的数学研究?第二,Lean 是否会成为 AI for Math 的主接口?第三,数学家直觉能否被模型学习,还是必须长期由人类提供?第四,Axiom 这类 Neo Lab 如何在基础研究和商业化之间找到中间产物?第五,AI for Math 的成功是否会反过来推动 AI 自身算法和理论进步?

本期与后续整理的关系

后续如果整理更多 AI for Science、机器人、世界模型或自动驾驶访谈,可以复用本期框架:先找可验证环境,再看人类专家反馈,再看模型是否能形成长期闭环。数学只是这个框架中验证最硬的一类场景。

本章小结

EP137 的价值在于拓展了 AI 队列的边界:从 Agent 产品和模型训练,进入数学和科学发现。它提醒我们,最难的 AI 应用往往同时需要形式验证和人类审美。

转写校正与术语标准化

本期没有平台字幕,正文基于 faster-whisper large-v3 CUDA 转写。数学和 AI 术语密集,自动转写会产生系统性误差,例如把 Lean 写成“令”或“林”,把 AI for Math 写成近似音,把 Carina/Hong/Verve Coffee 等专名误听,把 theorem proving、proof assistant、formalization 等术语拆散。生成讲义时必须做术语校正,否则读者会误解技术主线。

术语消化:常见转写误差修正表

标准术语 可能的转写误差 校正理由
Carina Hong / 洪乐潼 洪乐同、洪乐童、Carina 音近误写 人名与 Axiom 背景相关,必须统一。
Axiom 公理、A型、Axium 公司名;中文可解释为“公理”,但正文应保留英文。
Lean 令、林、line proof assistant 名称,关系到形式化数学主线。
AI for Math Al for Math、AI for Mark 本期核心方向。
Proof Assistant 证明助手、proof system 混用 指 Lean/Coq 这类验证系统。
Formalization 形式化、格式化混淆 指把数学写入形式系统,而不是排版格式化。
Ken Ono 小野肯、小野 Ken 数学家专名,关联 Axiom 组织信号。
Bounded / Free Attention 注意力边界、自由注意力误译 这里是数学思考模式隐喻,不是 Transformer attention 机制本身。

自动转写不能直接当技术文本

访谈类材料尤其容易在专名、论文名、系统名上误转写。高标准笔记必须基于章节、上下文和外部公开资料做术语校正,不能逐字照搬自动字幕。

本章小结

转写只是原料,不是讲义。AI for Math 这种术语密集内容尤其需要先做术语标准化,再写结构化笔记。

AI for Math 的评估路线:从题库到研究贡献

如果要判断 AI for Math 是否真正进步,不能只看模型做了多少竞赛题。竞赛题有价值,因为答案清晰、反馈硬;但它只是入口。更高层次的评估应该看形式化证明通过率、定理库贡献、lemma 发现、反例构造、数学家协作效率和新研究方向的产生。

评估层级

层级 可测指标 局限
竞赛题求解 正确率、pass@k、解题时间 容易过拟合题库,不代表研究能力。
形式化补全 Lean theorem 通过率、tactic 成功率 依赖定理库覆盖和题目选择。
证明生成 完整证明长度、可读性、验证通过率 正确不等于优雅,长证明可能没有洞察。
定理库贡献 新 lemma 数量、复用率、维护成本 需要社区接受,不只是机器生成。
研究协作 数学家节省时间、发现反例、提出猜想 难以标准化,但最接近真实价值。

评估路线的核心

AI for Math 的评估应从“答案正确”逐步走向“证明可验证”“证明有解释力”“定理库可复用”“数学家愿意协作”。越往后越难量化,但也越接近真正价值。

为什么这和 Agent 相关

AI for Math 看似是科学问题,实际上也是 Agent 问题:模型要进入 Lean 环境,读取 goal state,调用 tactic,观察错误,修复证明,再继续推进。这和 web agent、coding agent 的闭环非常相似,只是环境更形式化、反馈更硬。EP137 因此可以看作 EP139 Agent 技术史的一种科学版实例。

Lean 环境就是一种高质量 Agent 环境

Lean 提供明确状态、明确动作、明确验证和明确错误反馈。相比开放网页环境,它更严格;相比普通聊天,它更可训练。这使 AI for Math 成为研究 Agent 学习能力的理想试验场。

本章小结

AI for Math 的评估不能停在题库正确率。真正的路线,是从解题、形式化、证明生成,逐步走向定理库贡献和数学家协作。

附录:Lean 与 AI for Math 学习路线

阶段 学什么 为什么学
数学语言 命题、定义、lemma、proof、反例 理解自然语言证明如何组织。
Lean 基础 theorem、example、rw、simp、apply、exact、induction 理解 proof assistant 的交互方式。
Mathlib 常用定理库、命名、搜索、依赖关系 AI 证明离不开已有数学库。
Autoformalization 自然语言到 Lean statement 连接论文/题目和形式系统。
Proof Search tactic 组合、goal state、错误修复 让模型能在验证器反馈下迭代。
Human Collaboration 数学家审美、问题选择、解释力 判断证明是否有意义,而不只是通过。

学习路线的意义

这张表把 AI for Math 的学习顺序从“先学模型”改成“先理解数学和形式系统”。对工程读者来说,Lean 基础和 proof search 是进入这一领域的最低门槛;对数学读者来说,autoformalization 和模型反馈是理解 AI 能力边界的入口。

本章小结

AI for Math 是跨学科路线:数学语言、形式系统、模型训练和人机协作缺一不可。学习路径越清楚,越不容易把它误解成“让模型多刷题”。

总结与延伸

核心结论

  1. AI for Math 不等于刷数学题,而是从问题、直觉、形式化到验证的完整系统。
  2. Lean/Coq 等 proof assistant 为 AI 提供硬反馈,使数学成为适合训练和评估的高价值领域。
  3. 数学直觉和形式验证不是对立关系,强系统需要同时拥有 free attention 和 bounded attention。
  4. Axiom 这类 Neo Lab 需要数学家网络、形式化系统、模型训练、资金算力和产品目标共同成立。
  5. AI for Math 的终点不是替代数学家,而是与数学家共建证明、定理库和研究路线。

开放问题

  • AI 能否生成真正有审美和解释力的证明,而不只是长而正确的证明?
  • Lean 形式化会成为数学研究主流接口,还是只服务部分领域?
  • 数学家反馈如何规模化,才能形成 AI for Math 数据飞轮?
  • Axiom 这类 Neo Lab 的产品形态会是 proof assistant、研究平台,还是数学家协作系统?

拓展阅读

  • Lean theorem prover 与 mathlib:理解形式化数学的基础设施。
  • Terence Tao、Kevin Buzzard 等关于 formalization 的公开讨论:理解数学社区为什么重视 Lean。
  • AI theorem proving、autoformalization、proof search 相关论文:理解 AI for Math 的技术路线。
  • EP139 和 EP138 笔记:把 AI for Math 放回 Agent 与模型实验室的更大图谱中。

最后的判断

AI for Math 的难点在于,它同时要求模型懂数学、会写形式语言、能接受机器验证、也能与数学家直觉协作。它是 AI 从“生产力工具”走向“科学发现伙伴”的关键试验场。