[LLM Agents SP25] LMs for Autoformalization & Theorem Proving — Kaiyu Yang
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | Berkeley RDI |
| 日期 | 2025 |
![[LLM Agents SP25] LMs for Autoformalization & Theorem Proving — Kaiyu Yang](cover.jpg)
引言:形式推理遇上大语言模型
本讲由 Meta FAIR 的 Kaiyu Yang 主讲,聚焦于将形式推理(formal reasoning)与大语言模型结合,推动 AI 在数学和验证领域的应用。
为何数学和编程是 LLM 竞赛的核心指标
- 数学和编程是复杂推理与规划的代理指标(proxy)
- 推理和规划能力可解锁无限应用(旅行规划、日程管理等)
- 数学和编程相对容易评估:数学可检查答案,代码可运行单元测试
训练数学 LLM 的两大技术
监督微调(SFT)
- 基础模型在互联网规模数据上预训练
- 在数学文档(StackOverflow、arXiv 等)上继续预训练 \(\to\) 基础数学模型
- 在带详细解题步骤的问答数据上微调(可含工具调用,如 Python)
数据是最大瓶颈
SFT 管道中最昂贵的部分是数据收集:需要人工标注、清洗和格式转换,无法完全自动化。
强化学习(RL)
当数据集仅有最终答案而没有中间步骤时,可用 RL 训练:
- 模型生成含中间步骤的解答
- 对比最终答案与真实答案:正确奖励 1,错误奖励 0
- 用 GRPO 等算法优化模型以最大化奖励
RL 的关键:可验证性
RL 依赖于可靠的验证信号。数值答案可直接比较,但证明题的正确性如何自动验证?这正是形式化系统的价值所在。
从竞赛数学到前沿数学的鸿沟
当前 LLM 的数学能力局限
- O1/O3 在 AMC/AIME 等预科竞赛上表现出色
- Frontier Math 基准包含研究级数学题,O3 解决了 20%+(但题目被设计为有数值答案)
- Terence Tao 评价:O1 仍在最前沿研究数学任务上挣扎
证明生成的困境
LLM 写证明的严重问题
- Putnam 竞赛(本科级):ChatGPT 大多只得 1--2/10 分
- USAMO 评估:所有模型得分约 5%
- 错误类型:不等式方向翻转等“简单”错误,隐藏在长证明中极难检测
根本原因:前沿数学数据稀缺且证明不可验证。
Lean 与形式化定理证明
Lean 简介
Lean 是一种编程语言/定理证明器/交互式证明助手:
- 定义自然数、加法等基本概念
- 声明并证明定理(如交换律 \(a+b=b+a\))
- 证明以证明树表示:根节点为原始定理,每步分解为更简单的子目标
- 文件组织为项目,项目间可复用(类似软件开发中的库依赖)
LeanDojo:开源定理证明基础设施
LeanDojo(NeurIPS 2023)
提供开源数据集、工具和模型:
- 从人类编写的 Lean 代码中提取约 10,000 条定理和证明
- 提取每步的证明状态、使用的引理及其定义
- 训练 ReProver(检索增强证明器):先检索相关引理,再生成下一步策略
Expert Iteration 改进
用当前证明器尝试证明新定理 \(\to\) 收集成功证明 \(\to\) 加入训练集 \(\to\) 训练更强证明器 \(\to\) 迭代,直到性能饱和。
定理证明的根本挑战
无限动作空间
围棋有 \(19\times19\) 的有限棋盘,但数学证明的动作空间实质无限——难以仅靠人类数据覆盖,RL 探索也极其困难。
案例:不等式证明(LiPS)
在数学奥林匹克不等式这一特定领域:
- 将动作分为缩放(应用已知引理,有限可枚举)和重写(变换公式,无限空间交由 LLM 处理)
- 符号算法枚举所有缩放 + LLM 处理重写 + 启发式过滤
- O1 Preview 证明 0/20,O3 和 DeepSeek-R1 各证明 3--4/20,人类金牌选手 15/20,LiPS 证明 16/20
- 发现了人类未知的证明方法(仅用 AM-GM 配合巧妙重写)
自动形式化
两个子问题
- 声明形式化:非形式化定理 \(\to\) 形式化声明
- 证明形式化:非形式化证明 \(\to\) 形式化证明
声明形式化的评估难题
同一定理可有多种等价的形式化表述(如"无穷多素数"有多种等价写法),但检验两个形式化声明的逻辑等价性在一般情况下是不可判定的。
证明形式化的推理缺口
人类证明即使很严格,也常有"留给读者"的部分,模型必须自主填补这些推理缺口。
案例:欧几里得几何中的自动形式化
选择欧几里得几何作为受限领域,利用领域特性使原本不可解的问题变得可解。
本章小结
定理证明的核心挑战是如何高效探索无限动作空间。领域特定的洞察可使动作空间结构化,但通用化仍是开放问题。
总结与延伸
核心信息
- 当前 LLM 数学能力主要依赖 SFT 和 RL,受限于数据量和可验证性
- 形式化推理(Lean)提供完美验证信号,可缓解数据稀缺和评估困难
- LeanDojo 提供了开源的定理证明基础设施
- 领域特定方法(如 LiPS)可在特定任务上超越人类和前沿 LLM
- 自动形式化(声明和证明)各有独特挑战
拓展阅读
- LeanDojo(NeurIPS 2023):开源定理证明数据和工具
- LiPS:不等式证明中的符号+神经混合方法
- “AI for Math” 立场论文(arXiv)
- Frontier Math 基准(Epoch AI)
- DeepSeek-R1:RL 训练推理模型