[LLM Agents SP25] Abstraction & Discovery with LLM Agents — Swarat Chaudhuri

LaTeX 源码

字段	内容
作者/整理	基于公开课程资料整理
来源	Berkeley RDI
日期	2025

引言：LLM 作为科学与数学发现的工具

本讲由 UT Austin 教授 Swarat Chaudhuri 主讲，重点介绍 LLM 在数学发现和科学发现中的应用，特别强调 LLM 的抽象能力如何加速发现过程。

数学发现与科学发现的流程

数学发现：建模 \(\to\) 猜想 \(\to\) 严格推理（证明） \(\to\) 反例/新猜想 \(\to\) 迭代循环。\ 科学发现：理论构建 \(\to\) 假设提出 \(\to\) 实验设计 \(\to\) 实验验证 \(\to\) 新数据 \(\to\) 新理论。\ AI for Math 旨在自动化证明过程；AI for Science 旨在自动化假设生成和实验设计。

LLM Agent 在发现中的三大优势

搜索引导：LLM 内部蕴含大量先验知识，可引导在巨大假设空间中的搜索方向
经验学习：LLM Agent 可与环境交互，从经验中学习（放入 Prompt 或通过 RL 调整权重）
抽象能力：LLM 可以发现和构造新概念与新工具——这是一个全新但极具潜力的方向

AI for Math：形式化推理与 LLM Agent

纯神经方法的局限

近年来 LLM 在数学竞赛中表现出色（如 O1 在 AMC 2024 中的显著提升、AlphaProof 在 IMO 中获得银牌级表现），但纯神经方法存在根本性弱点：

纯语言模型做数学的两个根本问题

数据稀缺：严格数学推理需要大量高质量推理轨迹或高质量奖励函数，超出竞赛/高中水平后难以仅靠人类数据获取
自然语言推理难以验证：语言推理的正确性无法被形式化检验，在边界情况关键的实际系统中尤为危险

形式化表示：替代方案

形式化方法的核心思路

自动形式化（Autoformalization）：将非形式化的数学陈述转换为 Lean、Coq、Isabelle 等形式化语言
神经证明器（Neural Prover）：在形式化环境中搜索证明策略（tactics）序列
验证：形式化证明可被证明助手自动检验——这解决了验证难题
合成数据：可大量生成候选证明并立即获得正确性反馈，将证明问题转化为类游戏任务

Lean 证明助手工作原理

Lean 是一个状态机：

状态（State）：当前需要证明的目标（goals）和上下文假设
动作（Tactic）：简化规则，应用后改变证明状态
目标：找到一系列 tactics，使所有 goals 被消解，到达 QED 状态

例如证明"若 \(x\) 为偶数，则 \(x^2\) 为偶数"：初始状态包含目标 \(x^2 \bmod 2 = 0\)，通过 intro、rw 等 tactics 逐步简化，最终达到 \(0 = 0\) 即 QED。

Copra：基于 LLM Agent 的定理证明

Copra 系统架构

Copra 是一种基于上下文学习（In-Context Learning）的定理证明 Agent：

使用前沿 LLM（如 GPT-4）预测下一步 tactic
将证明状态和搜索历史作为 Prompt 提供给 LLM
执行预测的 tactic，获取新状态或错误反馈
将错误信息反馈到 Prompt 中，让 LLM 修正策略
外层使用深度优先搜索（DFS）组织整个证明过程

Copra 的核心优势：

无需额外训练：直接利用预训练 LLM 的能力
即时受益于 LLM 进步：从 GPT-4 到 O1/O3 的升级直接提升性能
融合自然语言与形式语言推理
无需训练语料：适用于全新的研究问题
证明助手反馈提供接地（grounding）：防止幻觉

层次化证明：抽象的力量

LLM 驱动的层次化证明分解

对于复杂定理（如 IMO 问题），Copra 可扩展为层次化求解：

让 LLM 生成非形式化的证明计划（informal proof plan）
基于计划将定理分解为多个子目标（sub-goals）的形式化表述
用 Copra 逐个证明子目标
将已证明的子目标放入上下文，证明完整定理

关键洞察：LLM 不仅可以预测低级证明步骤，还可以进行高级抽象推理——这一切通过 Prompt 工程即可实现，无需额外训练。

以 IMO 题目"证明 \(\frac{21n+4}{14n+3}\) 对所有自然数 \(n\) 不可约"为例：O3 将问题分解为关于 GCD 的三个子引理，Copra 分别证明后，再组合证明完整定理。

应用：编译器形式化验证

形式化验证的实际价值

形式化验证可以数学地证明系统的正确性、安全性和性能。美国国防部曾使用形式化验证的 Linux 内核（seL4）部署在无人机上，红队6周内无法攻破。

历史上形式化验证极其昂贵，但 AI for Math 的兴起正在根本性改变成本-收益方程。

讲座演示了一个简单的算术表达式编译器验证案例（Coq语言）：

源语言：递归定义的算术表达式（加法、乘法）
目标语言：基于栈机的指令列表
编译器正确性定理：编译后执行结果 = 源语言求值结果
Copra 无法一次性证明，但通过 LLM 发明辅助引理（单条指令编译正确性），再组合完成完整证明

本章小结

LLM Agent 用于数学发现极具前景，上下文学习方法已展现强大能力
证明助手的反馈对于接地（grounding）至关重要
高级 Agent 设计可组合形式化、层次化规划和低级证明生成
目前仍需 Agent 架构，纯训练方法尚未达到足够水平

AI for Science：LLM 引导的科学发现

从符号回归到 LLM 引导进化

符号回归问题

符号回归（Symbolic Regression）是根据经验观测数据发现方程的任务。例如，给定火星运动的测量数据，发现开普勒第三定律。

传统方法（如遗传编程 PySR）维护候选表达式种群，通过变异和交叉进化。LLM 可通过提供先验科学知识来增强这一过程。

LaSR：概念引导的符号回归

LaSR（Language-guided Symbolic Regression）框架

LaSR 联合推断程序假设和高级概念：

\[ P(\pi, C \mid D) \propto P(D \mid \pi) \cdot P(\pi \mid C) \cdot P(C) \]

其中：

\(P(D \mid \pi)\)：程序 \(\pi\) 对数据 \(D\) 的似然（通过执行程序计算）
\(P(\pi \mid C)\)：给定概念 \(C\) 下程序的概率（LLM 的背景知识）
\(P(C)\)：概念的先验分布（LLM 的科学知识）

LaSR 的工作流程：

维护候选程序（方程）种群
假设进化：经典符号变异 + LLM 引导变异（基于概念库）
适应度评估：程序对数据的拟合程度
概念抽象：LLM 将程序池抽象为自然语言高级描述（如"指数增长/衰减"、"幂律"）
概念进化：LLM 组合现有概念生成新概念（如"指数增长" + "温度依赖" \(\to\) "Boltzmann 分布"）
概念库反馈到假设进化，形成闭环

实验结果

在费曼方程发现任务上，LaSR 优于纯遗传编程和无概念学习的版本
即使使用本地语言模型（非前沿模型），也能超过纯遗传编程
用户提示（hints）可提供额外收益
LaSR 发现的库仑定律表达式仅需4步化简即可得到标准形式，而 PySR 得到的等价表达式需要大量化简

新发现：LLM 缩放定律

为验证方法不只是"记忆已知公式"，团队用 LaSR 发现了新的 LLM 缩放定律，纳入了 few-shot 样本数参数：

有趣发现

大量 few-shot 样本对低能力模型反而有害，但一旦模型能力超过阈值，更多 shots 带来更好表现。将此发现与 Chinchilla 定律结合，得到了更准确的缩放定律。

本章小结

LLM 引导的进化是经验科学的强大工具
LLM 的抽象能力（概念发现）可进一步增强发现过程
可扩展到视觉高维输入（使用 VLM）
开放挑战：假设验证、超越自然语言的概念表示、更大搜索空间的扩展

总结与延伸

核心信息

LLM Agent 在数学发现和科学发现中具有巨大潜力，其优势不仅在于强大的搜索能力和先验知识，更在于抽象能力——发现新概念、构建层次化解决方案。关键设计模式包括：

LLM + 形式化验证：LLM 生成证明步骤，证明助手提供接地反馈
层次化分解：LLM 进行高级规划和子问题分解
概念引导进化：LLM 抽象和组合高级概念，引导搜索方向
Prompt 工程的灵活性：无需额外训练即可实现质变的能力提升

拓展阅读

Copra：LLM Agent 定理证明（Conference on Language Models, 2024）
LaSR：概念引导的符号回归（NeurIPS 2024）
FunSearch（DeepMind）：LLM 引导的进化搜索
AlphaProof：RL + 形式化数学
“AI for Math” 综述论文（Dawn Song 等参与）