[LLM Agents SP25] LMs for Autoformalization & Theorem Proving — Kaiyu Yang

LaTeX 源码

字段	内容
作者/整理	基于公开课程资料整理
来源	Berkeley RDI
日期	2025

引言：形式推理遇上大语言模型

本讲由 Meta FAIR 的 Kaiyu Yang 主讲，聚焦于将形式推理（formal reasoning）与大语言模型结合，推动 AI 在数学和验证领域的应用。

为何数学和编程是 LLM 竞赛的核心指标

数学和编程是复杂推理与规划的代理指标（proxy）
推理和规划能力可解锁无限应用（旅行规划、日程管理等）
数学和编程相对容易评估：数学可检查答案，代码可运行单元测试

训练数学 LLM 的两大技术

监督微调（SFT）

基础模型在互联网规模数据上预训练
在数学文档（StackOverflow、arXiv 等）上继续预训练 \(\to\) 基础数学模型
在带详细解题步骤的问答数据上微调（可含工具调用，如 Python）

数据是最大瓶颈

SFT 管道中最昂贵的部分是数据收集：需要人工标注、清洗和格式转换，无法完全自动化。

强化学习（RL）

当数据集仅有最终答案而没有中间步骤时，可用 RL 训练：

模型生成含中间步骤的解答
对比最终答案与真实答案：正确奖励 1，错误奖励 0
用 GRPO 等算法优化模型以最大化奖励

RL 的关键：可验证性

RL 依赖于可靠的验证信号。数值答案可直接比较，但证明题的正确性如何自动验证？这正是形式化系统的价值所在。

从竞赛数学到前沿数学的鸿沟

当前 LLM 的数学能力局限

O1/O3 在 AMC/AIME 等预科竞赛上表现出色
Frontier Math 基准包含研究级数学题，O3 解决了 20%+（但题目被设计为有数值答案）
Terence Tao 评价：O1 仍在最前沿研究数学任务上挣扎

证明生成的困境

LLM 写证明的严重问题

Putnam 竞赛（本科级）：ChatGPT 大多只得 1--2/10 分
USAMO 评估：所有模型得分约 5%
错误类型：不等式方向翻转等“简单”错误，隐藏在长证明中极难检测

根本原因：前沿数学数据稀缺且证明不可验证。

Lean 与形式化定理证明

Lean 简介

Lean 是一种编程语言/定理证明器/交互式证明助手：

定义自然数、加法等基本概念
声明并证明定理（如交换律 \(a+b=b+a\)）
证明以证明树表示：根节点为原始定理，每步分解为更简单的子目标
文件组织为项目，项目间可复用（类似软件开发中的库依赖）

LeanDojo：开源定理证明基础设施

LeanDojo（NeurIPS 2023）

提供开源数据集、工具和模型：

从人类编写的 Lean 代码中提取约 10,000 条定理和证明
提取每步的证明状态、使用的引理及其定义
训练 ReProver（检索增强证明器）：先检索相关引理，再生成下一步策略

Expert Iteration 改进

用当前证明器尝试证明新定理 \(\to\) 收集成功证明 \(\to\) 加入训练集 \(\to\) 训练更强证明器 \(\to\) 迭代，直到性能饱和。

定理证明的根本挑战

无限动作空间

围棋有 \(19\times19\) 的有限棋盘，但数学证明的动作空间实质无限——难以仅靠人类数据覆盖，RL 探索也极其困难。

案例：不等式证明（LiPS）

在数学奥林匹克不等式这一特定领域：

将动作分为缩放（应用已知引理，有限可枚举）和重写（变换公式，无限空间交由 LLM 处理）
符号算法枚举所有缩放 + LLM 处理重写 + 启发式过滤
O1 Preview 证明 0/20，O3 和 DeepSeek-R1 各证明 3--4/20，人类金牌选手 15/20，LiPS 证明 16/20
发现了人类未知的证明方法（仅用 AM-GM 配合巧妙重写）

自动形式化

两个子问题

声明形式化：非形式化定理 \(\to\) 形式化声明
证明形式化：非形式化证明 \(\to\) 形式化证明

声明形式化的评估难题

同一定理可有多种等价的形式化表述（如"无穷多素数"有多种等价写法），但检验两个形式化声明的逻辑等价性在一般情况下是不可判定的。

证明形式化的推理缺口

人类证明即使很严格，也常有"留给读者"的部分，模型必须自主填补这些推理缺口。

案例：欧几里得几何中的自动形式化

选择欧几里得几何作为受限领域，利用领域特性使原本不可解的问题变得可解。

本章小结

定理证明的核心挑战是如何高效探索无限动作空间。领域特定的洞察可使动作空间结构化，但通用化仍是开放问题。

总结与延伸

核心信息

当前 LLM 数学能力主要依赖 SFT 和 RL，受限于数据量和可验证性
形式化推理（Lean）提供完美验证信号，可缓解数据稀缺和评估困难
LeanDojo 提供了开源的定理证明基础设施
领域特定方法（如 LiPS）可在特定任务上超越人类和前沿 LLM
自动形式化（声明和证明）各有独特挑战

拓展阅读

LeanDojo（NeurIPS 2023）：开源定理证明数据和工具
LiPS：不等式证明中的符号+神经混合方法
“AI for Math” 立场论文（arXiv）
Frontier Math 基准（Epoch AI）
DeepSeek-R1：RL 训练推理模型