跳转至

[LLM Agents SP25] LMs for Autoformalization & Theorem Proving — Kaiyu Yang

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于公开课程资料整理
来源 Berkeley RDI
日期 2025

[LLM Agents SP25] LMs for Autoformalization & Theorem Proving — Kaiyu Yang

引言:形式推理遇上大语言模型

本讲由 Meta FAIR 的 Kaiyu Yang 主讲,聚焦于将形式推理(formal reasoning)与大语言模型结合,推动 AI 在数学和验证领域的应用。

为何数学和编程是 LLM 竞赛的核心指标

  • 数学和编程是复杂推理与规划的代理指标(proxy)
  • 推理和规划能力可解锁无限应用(旅行规划、日程管理等)
  • 数学和编程相对容易评估:数学可检查答案,代码可运行单元测试

训练数学 LLM 的两大技术

监督微调(SFT)

  1. 基础模型在互联网规模数据上预训练
  2. 在数学文档(StackOverflow、arXiv 等)上继续预训练 \(\to\) 基础数学模型
  3. 带详细解题步骤的问答数据上微调(可含工具调用,如 Python)

数据是最大瓶颈

SFT 管道中最昂贵的部分是数据收集:需要人工标注、清洗和格式转换,无法完全自动化。

强化学习(RL)

当数据集仅有最终答案而没有中间步骤时,可用 RL 训练:

  1. 模型生成含中间步骤的解答
  2. 对比最终答案与真实答案:正确奖励 1,错误奖励 0
  3. 用 GRPO 等算法优化模型以最大化奖励

RL 的关键:可验证性

RL 依赖于可靠的验证信号。数值答案可直接比较,但证明题的正确性如何自动验证?这正是形式化系统的价值所在。

从竞赛数学到前沿数学的鸿沟

当前 LLM 的数学能力局限

  • O1/O3 在 AMC/AIME 等预科竞赛上表现出色
  • Frontier Math 基准包含研究级数学题,O3 解决了 20%+(但题目被设计为有数值答案)
  • Terence Tao 评价:O1 仍在最前沿研究数学任务上挣扎

证明生成的困境

LLM 写证明的严重问题

  • Putnam 竞赛(本科级):ChatGPT 大多只得 1--2/10 分
  • USAMO 评估:所有模型得分约 5%
  • 错误类型:不等式方向翻转等“简单”错误,隐藏在长证明中极难检测

根本原因:前沿数学数据稀缺证明不可验证

Lean 与形式化定理证明

Lean 简介

Lean 是一种编程语言/定理证明器/交互式证明助手:

  • 定义自然数、加法等基本概念
  • 声明并证明定理(如交换律 \(a+b=b+a\)
  • 证明以证明树表示:根节点为原始定理,每步分解为更简单的子目标
  • 文件组织为项目,项目间可复用(类似软件开发中的库依赖)

LeanDojo:开源定理证明基础设施

LeanDojo(NeurIPS 2023)

提供开源数据集、工具和模型:

  • 从人类编写的 Lean 代码中提取约 10,000 条定理和证明
  • 提取每步的证明状态、使用的引理及其定义
  • 训练 ReProver(检索增强证明器):先检索相关引理,再生成下一步策略

Expert Iteration 改进

用当前证明器尝试证明新定理 \(\to\) 收集成功证明 \(\to\) 加入训练集 \(\to\) 训练更强证明器 \(\to\) 迭代,直到性能饱和。

定理证明的根本挑战

无限动作空间

围棋有 \(19\times19\) 的有限棋盘,但数学证明的动作空间实质无限——难以仅靠人类数据覆盖,RL 探索也极其困难。

案例:不等式证明(LiPS)

在数学奥林匹克不等式这一特定领域:

  • 将动作分为缩放(应用已知引理,有限可枚举)和重写(变换公式,无限空间交由 LLM 处理)
  • 符号算法枚举所有缩放 + LLM 处理重写 + 启发式过滤
  • O1 Preview 证明 0/20,O3 和 DeepSeek-R1 各证明 3--4/20,人类金牌选手 15/20,LiPS 证明 16/20
  • 发现了人类未知的证明方法(仅用 AM-GM 配合巧妙重写)

自动形式化

两个子问题

  1. 声明形式化:非形式化定理 \(\to\) 形式化声明
  2. 证明形式化:非形式化证明 \(\to\) 形式化证明

声明形式化的评估难题

同一定理可有多种等价的形式化表述(如"无穷多素数"有多种等价写法),但检验两个形式化声明的逻辑等价性在一般情况下是不可判定的

证明形式化的推理缺口

人类证明即使很严格,也常有"留给读者"的部分,模型必须自主填补这些推理缺口

案例:欧几里得几何中的自动形式化

选择欧几里得几何作为受限领域,利用领域特性使原本不可解的问题变得可解。

本章小结

定理证明的核心挑战是如何高效探索无限动作空间。领域特定的洞察可使动作空间结构化,但通用化仍是开放问题。

总结与延伸

核心信息

  1. 当前 LLM 数学能力主要依赖 SFT 和 RL,受限于数据量和可验证性
  2. 形式化推理(Lean)提供完美验证信号,可缓解数据稀缺和评估困难
  3. LeanDojo 提供了开源的定理证明基础设施
  4. 领域特定方法(如 LiPS)可在特定任务上超越人类和前沿 LLM
  5. 自动形式化(声明和证明)各有独特挑战

拓展阅读

  • LeanDojo(NeurIPS 2023):开源定理证明数据和工具
  • LiPS:不等式证明中的符号+神经混合方法
  • “AI for Math” 立场论文(arXiv)
  • Frontier Math 基准(Epoch AI)
  • DeepSeek-R1:RL 训练推理模型