[LLM Agents SP25] Abstraction & Discovery with LLM Agents — Swarat Chaudhuri
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | Berkeley RDI |
| 日期 | 2025 |
![[LLM Agents SP25] Abstraction & Discovery with LLM Agents — Swarat Chaudhuri](cover.jpg)
引言:LLM 作为科学与数学发现的工具
本讲由 UT Austin 教授 Swarat Chaudhuri 主讲,重点介绍 LLM 在数学发现和科学发现中的应用,特别强调 LLM 的抽象能力如何加速发现过程。
数学发现与科学发现的流程
数学发现:建模 \(\to\) 猜想 \(\to\) 严格推理(证明) \(\to\) 反例/新猜想 \(\to\) 迭代循环。\ 科学发现:理论构建 \(\to\) 假设提出 \(\to\) 实验设计 \(\to\) 实验验证 \(\to\) 新数据 \(\to\) 新理论。\ AI for Math 旨在自动化证明过程;AI for Science 旨在自动化假设生成和实验设计。
LLM Agent 在发现中的三大优势
- 搜索引导:LLM 内部蕴含大量先验知识,可引导在巨大假设空间中的搜索方向
- 经验学习:LLM Agent 可与环境交互,从经验中学习(放入 Prompt 或通过 RL 调整权重)
- 抽象能力:LLM 可以发现和构造新概念与新工具——这是一个全新但极具潜力的方向
AI for Math:形式化推理与 LLM Agent
纯神经方法的局限
近年来 LLM 在数学竞赛中表现出色(如 O1 在 AMC 2024 中的显著提升、AlphaProof 在 IMO 中获得银牌级表现),但纯神经方法存在根本性弱点:
纯语言模型做数学的两个根本问题
- 数据稀缺:严格数学推理需要大量高质量推理轨迹或高质量奖励函数,超出竞赛/高中水平后难以仅靠人类数据获取
- 自然语言推理难以验证:语言推理的正确性无法被形式化检验,在边界情况关键的实际系统中尤为危险
形式化表示:替代方案
形式化方法的核心思路
- 自动形式化(Autoformalization):将非形式化的数学陈述转换为 Lean、Coq、Isabelle 等形式化语言
- 神经证明器(Neural Prover):在形式化环境中搜索证明策略(tactics)序列
- 验证:形式化证明可被证明助手自动检验——这解决了验证难题
- 合成数据:可大量生成候选证明并立即获得正确性反馈,将证明问题转化为类游戏任务
Lean 证明助手工作原理
Lean 是一个状态机:
- 状态(State):当前需要证明的目标(goals)和上下文假设
- 动作(Tactic):简化规则,应用后改变证明状态
- 目标:找到一系列 tactics,使所有 goals 被消解,到达 QED 状态
例如证明"若 \(x\) 为偶数,则 \(x^2\) 为偶数":初始状态包含目标 \(x^2 \bmod 2 = 0\),通过 intro、rw 等 tactics 逐步简化,最终达到 \(0 = 0\) 即 QED。
Copra:基于 LLM Agent 的定理证明
Copra 系统架构
Copra 是一种基于上下文学习(In-Context Learning)的定理证明 Agent:
- 使用前沿 LLM(如 GPT-4)预测下一步 tactic
- 将证明状态和搜索历史作为 Prompt 提供给 LLM
- 执行预测的 tactic,获取新状态或错误反馈
- 将错误信息反馈到 Prompt 中,让 LLM 修正策略
- 外层使用深度优先搜索(DFS)组织整个证明过程
Copra 的核心优势:
- 无需额外训练:直接利用预训练 LLM 的能力
- 即时受益于 LLM 进步:从 GPT-4 到 O1/O3 的升级直接提升性能
- 融合自然语言与形式语言推理
- 无需训练语料:适用于全新的研究问题
- 证明助手反馈提供接地(grounding):防止幻觉
层次化证明:抽象的力量
LLM 驱动的层次化证明分解
对于复杂定理(如 IMO 问题),Copra 可扩展为层次化求解:
- 让 LLM 生成非形式化的证明计划(informal proof plan)
- 基于计划将定理分解为多个子目标(sub-goals)的形式化表述
- 用 Copra 逐个证明子目标
- 将已证明的子目标放入上下文,证明完整定理
关键洞察:LLM 不仅可以预测低级证明步骤,还可以进行高级抽象推理——这一切通过 Prompt 工程即可实现,无需额外训练。
以 IMO 题目"证明 \(\frac{21n+4}{14n+3}\) 对所有自然数 \(n\) 不可约"为例:O3 将问题分解为关于 GCD 的三个子引理,Copra 分别证明后,再组合证明完整定理。
应用:编译器形式化验证
形式化验证的实际价值
形式化验证可以数学地证明系统的正确性、安全性和性能。美国国防部曾使用形式化验证的 Linux 内核(seL4)部署在无人机上,红队6周内无法攻破。
历史上形式化验证极其昂贵,但 AI for Math 的兴起正在根本性改变成本-收益方程。
讲座演示了一个简单的算术表达式编译器验证案例(Coq语言):
- 源语言:递归定义的算术表达式(加法、乘法)
- 目标语言:基于栈机的指令列表
- 编译器正确性定理:编译后执行结果 = 源语言求值结果
- Copra 无法一次性证明,但通过 LLM 发明辅助引理(单条指令编译正确性),再组合完成完整证明
本章小结
- LLM Agent 用于数学发现极具前景,上下文学习方法已展现强大能力
- 证明助手的反馈对于接地(grounding)至关重要
- 高级 Agent 设计可组合形式化、层次化规划和低级证明生成
- 目前仍需 Agent 架构,纯训练方法尚未达到足够水平
AI for Science:LLM 引导的科学发现
从符号回归到 LLM 引导进化
符号回归问题
符号回归(Symbolic Regression)是根据经验观测数据发现方程的任务。例如,给定火星运动的测量数据,发现开普勒第三定律。
传统方法(如遗传编程 PySR)维护候选表达式种群,通过变异和交叉进化。LLM 可通过提供先验科学知识来增强这一过程。
LaSR:概念引导的符号回归
LaSR(Language-guided Symbolic Regression)框架
LaSR 联合推断程序假设和高级概念:
其中:
- \(P(D \mid \pi)\):程序 \(\pi\) 对数据 \(D\) 的似然(通过执行程序计算)
- \(P(\pi \mid C)\):给定概念 \(C\) 下程序的概率(LLM 的背景知识)
- \(P(C)\):概念的先验分布(LLM 的科学知识)
LaSR 的工作流程:
- 维护候选程序(方程)种群
- 假设进化:经典符号变异 + LLM 引导变异(基于概念库)
- 适应度评估:程序对数据的拟合程度
- 概念抽象:LLM 将程序池抽象为自然语言高级描述(如"指数增长/衰减"、"幂律")
- 概念进化:LLM 组合现有概念生成新概念(如"指数增长" + "温度依赖" \(\to\) "Boltzmann 分布")
- 概念库反馈到假设进化,形成闭环
实验结果
- 在费曼方程发现任务上,LaSR 优于纯遗传编程和无概念学习的版本
- 即使使用本地语言模型(非前沿模型),也能超过纯遗传编程
- 用户提示(hints)可提供额外收益
- LaSR 发现的库仑定律表达式仅需4步化简即可得到标准形式,而 PySR 得到的等价表达式需要大量化简
新发现:LLM 缩放定律
为验证方法不只是"记忆已知公式",团队用 LaSR 发现了新的 LLM 缩放定律,纳入了 few-shot 样本数参数:
有趣发现
大量 few-shot 样本对低能力模型反而有害,但一旦模型能力超过阈值,更多 shots 带来更好表现。将此发现与 Chinchilla 定律结合,得到了更准确的缩放定律。
本章小结
- LLM 引导的进化是经验科学的强大工具
- LLM 的抽象能力(概念发现)可进一步增强发现过程
- 可扩展到视觉高维输入(使用 VLM)
- 开放挑战:假设验证、超越自然语言的概念表示、更大搜索空间的扩展
总结与延伸
核心信息
LLM Agent 在数学发现和科学发现中具有巨大潜力,其优势不仅在于强大的搜索能力和先验知识,更在于抽象能力——发现新概念、构建层次化解决方案。关键设计模式包括:
- LLM + 形式化验证:LLM 生成证明步骤,证明助手提供接地反馈
- 层次化分解:LLM 进行高级规划和子问题分解
- 概念引导进化:LLM 抽象和组合高级概念,引导搜索方向
- Prompt 工程的灵活性:无需额外训练即可实现质变的能力提升
拓展阅读
- Copra:LLM Agent 定理证明(Conference on Language Models, 2024)
- LaSR:概念引导的符号回归(NeurIPS 2024)
- FunSearch(DeepMind):LLM 引导的进化搜索
- AlphaProof:RL + 形式化数学
- “AI for Math” 综述论文(Dawn Song 等参与)