跳转至

[LLM Agents SP25] Abstraction & Discovery with LLM Agents — Swarat Chaudhuri

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于公开课程资料整理
来源 Berkeley RDI
日期 2025

[LLM Agents SP25] Abstraction & Discovery with LLM Agents — Swarat Chaudhuri

引言:LLM 作为科学与数学发现的工具

本讲由 UT Austin 教授 Swarat Chaudhuri 主讲,重点介绍 LLM 在数学发现和科学发现中的应用,特别强调 LLM 的抽象能力如何加速发现过程。

数学发现与科学发现的流程

数学发现:建模 \(\to\) 猜想 \(\to\) 严格推理(证明) \(\to\) 反例/新猜想 \(\to\) 迭代循环。\ 科学发现:理论构建 \(\to\) 假设提出 \(\to\) 实验设计 \(\to\) 实验验证 \(\to\) 新数据 \(\to\) 新理论。\ AI for Math 旨在自动化证明过程;AI for Science 旨在自动化假设生成和实验设计。

LLM Agent 在发现中的三大优势

  1. 搜索引导:LLM 内部蕴含大量先验知识,可引导在巨大假设空间中的搜索方向
  2. 经验学习:LLM Agent 可与环境交互,从经验中学习(放入 Prompt 或通过 RL 调整权重)
  3. 抽象能力:LLM 可以发现和构造新概念与新工具——这是一个全新但极具潜力的方向

AI for Math:形式化推理与 LLM Agent

纯神经方法的局限

近年来 LLM 在数学竞赛中表现出色(如 O1 在 AMC 2024 中的显著提升、AlphaProof 在 IMO 中获得银牌级表现),但纯神经方法存在根本性弱点:

纯语言模型做数学的两个根本问题

  1. 数据稀缺:严格数学推理需要大量高质量推理轨迹或高质量奖励函数,超出竞赛/高中水平后难以仅靠人类数据获取
  2. 自然语言推理难以验证:语言推理的正确性无法被形式化检验,在边界情况关键的实际系统中尤为危险

形式化表示:替代方案

形式化方法的核心思路

  1. 自动形式化(Autoformalization):将非形式化的数学陈述转换为 Lean、Coq、Isabelle 等形式化语言
  2. 神经证明器(Neural Prover):在形式化环境中搜索证明策略(tactics)序列
  3. 验证:形式化证明可被证明助手自动检验——这解决了验证难题
  4. 合成数据:可大量生成候选证明并立即获得正确性反馈,将证明问题转化为类游戏任务

Lean 证明助手工作原理

Lean 是一个状态机:

  • 状态(State):当前需要证明的目标(goals)和上下文假设
  • 动作(Tactic):简化规则,应用后改变证明状态
  • 目标:找到一系列 tactics,使所有 goals 被消解,到达 QED 状态

例如证明"若 \(x\) 为偶数,则 \(x^2\) 为偶数":初始状态包含目标 \(x^2 \bmod 2 = 0\),通过 introrw 等 tactics 逐步简化,最终达到 \(0 = 0\) 即 QED。

Copra:基于 LLM Agent 的定理证明

Copra 系统架构

Copra 是一种基于上下文学习(In-Context Learning)的定理证明 Agent:

  1. 使用前沿 LLM(如 GPT-4)预测下一步 tactic
  2. 将证明状态和搜索历史作为 Prompt 提供给 LLM
  3. 执行预测的 tactic,获取新状态或错误反馈
  4. 将错误信息反馈到 Prompt 中,让 LLM 修正策略
  5. 外层使用深度优先搜索(DFS)组织整个证明过程

Copra 的核心优势:

  • 无需额外训练:直接利用预训练 LLM 的能力
  • 即时受益于 LLM 进步:从 GPT-4 到 O1/O3 的升级直接提升性能
  • 融合自然语言与形式语言推理
  • 无需训练语料:适用于全新的研究问题
  • 证明助手反馈提供接地(grounding):防止幻觉

层次化证明:抽象的力量

LLM 驱动的层次化证明分解

对于复杂定理(如 IMO 问题),Copra 可扩展为层次化求解:

  1. 让 LLM 生成非形式化的证明计划(informal proof plan)
  2. 基于计划将定理分解为多个子目标(sub-goals)的形式化表述
  3. 用 Copra 逐个证明子目标
  4. 将已证明的子目标放入上下文,证明完整定理

关键洞察:LLM 不仅可以预测低级证明步骤,还可以进行高级抽象推理——这一切通过 Prompt 工程即可实现,无需额外训练。

以 IMO 题目"证明 \(\frac{21n+4}{14n+3}\) 对所有自然数 \(n\) 不可约"为例:O3 将问题分解为关于 GCD 的三个子引理,Copra 分别证明后,再组合证明完整定理。

应用:编译器形式化验证

形式化验证的实际价值

形式化验证可以数学地证明系统的正确性、安全性和性能。美国国防部曾使用形式化验证的 Linux 内核(seL4)部署在无人机上,红队6周内无法攻破。

历史上形式化验证极其昂贵,但 AI for Math 的兴起正在根本性改变成本-收益方程

讲座演示了一个简单的算术表达式编译器验证案例(Coq语言):

  • 源语言:递归定义的算术表达式(加法、乘法)
  • 目标语言:基于栈机的指令列表
  • 编译器正确性定理:编译后执行结果 = 源语言求值结果
  • Copra 无法一次性证明,但通过 LLM 发明辅助引理(单条指令编译正确性),再组合完成完整证明

本章小结

  • LLM Agent 用于数学发现极具前景,上下文学习方法已展现强大能力
  • 证明助手的反馈对于接地(grounding)至关重要
  • 高级 Agent 设计可组合形式化、层次化规划和低级证明生成
  • 目前仍需 Agent 架构,纯训练方法尚未达到足够水平

AI for Science:LLM 引导的科学发现

从符号回归到 LLM 引导进化

符号回归问题

符号回归(Symbolic Regression)是根据经验观测数据发现方程的任务。例如,给定火星运动的测量数据,发现开普勒第三定律。

传统方法(如遗传编程 PySR)维护候选表达式种群,通过变异和交叉进化。LLM 可通过提供先验科学知识来增强这一过程。

LaSR:概念引导的符号回归

LaSR(Language-guided Symbolic Regression)框架

LaSR 联合推断程序假设和高级概念:

\[ P(\pi, C \mid D) \propto P(D \mid \pi) \cdot P(\pi \mid C) \cdot P(C) \]

其中:

  • \(P(D \mid \pi)\):程序 \(\pi\) 对数据 \(D\) 的似然(通过执行程序计算)
  • \(P(\pi \mid C)\):给定概念 \(C\) 下程序的概率(LLM 的背景知识)
  • \(P(C)\):概念的先验分布(LLM 的科学知识)

LaSR 的工作流程:

  1. 维护候选程序(方程)种群
  2. 假设进化:经典符号变异 + LLM 引导变异(基于概念库)
  3. 适应度评估:程序对数据的拟合程度
  4. 概念抽象:LLM 将程序池抽象为自然语言高级描述(如"指数增长/衰减"、"幂律")
  5. 概念进化:LLM 组合现有概念生成新概念(如"指数增长" + "温度依赖" \(\to\) "Boltzmann 分布")
  6. 概念库反馈到假设进化,形成闭环

实验结果

  • 在费曼方程发现任务上,LaSR 优于纯遗传编程和无概念学习的版本
  • 即使使用本地语言模型(非前沿模型),也能超过纯遗传编程
  • 用户提示(hints)可提供额外收益
  • LaSR 发现的库仑定律表达式仅需4步化简即可得到标准形式,而 PySR 得到的等价表达式需要大量化简

新发现:LLM 缩放定律

为验证方法不只是"记忆已知公式",团队用 LaSR 发现了新的 LLM 缩放定律,纳入了 few-shot 样本数参数:

有趣发现

大量 few-shot 样本对低能力模型反而有害,但一旦模型能力超过阈值,更多 shots 带来更好表现。将此发现与 Chinchilla 定律结合,得到了更准确的缩放定律。

本章小结

  • LLM 引导的进化是经验科学的强大工具
  • LLM 的抽象能力(概念发现)可进一步增强发现过程
  • 可扩展到视觉高维输入(使用 VLM)
  • 开放挑战:假设验证、超越自然语言的概念表示、更大搜索空间的扩展

总结与延伸

核心信息

LLM Agent 在数学发现和科学发现中具有巨大潜力,其优势不仅在于强大的搜索能力和先验知识,更在于抽象能力——发现新概念、构建层次化解决方案。关键设计模式包括:

  1. LLM + 形式化验证:LLM 生成证明步骤,证明助手提供接地反馈
  2. 层次化分解:LLM 进行高级规划和子问题分解
  3. 概念引导进化:LLM 抽象和组合高级概念,引导搜索方向
  4. Prompt 工程的灵活性:无需额外训练即可实现质变的能力提升

拓展阅读

  • Copra:LLM Agent 定理证明(Conference on Language Models, 2024)
  • LaSR:概念引导的符号回归(NeurIPS 2024)
  • FunSearch(DeepMind):LLM 引导的进化搜索
  • AlphaProof:RL + 形式化数学
  • “AI for Math” 综述论文(Dawn Song 等参与)