← 返回列表

SR-Scientist: Scientific Equation Discovery With Agentic AI

作者 Shijie Xia, Yuhan Sun, Pengfei Liu
年份 2025
会议/期刊 arXiv 2025
评分
标签 AI智能体 符号回归 科学发现
摘要 LLM 智能体自主发现科学方程:工具调用(数据分析 + 方程评估)+ 经验缓冲区 + GRPO 强化学习训练,跨 4 个学科比基线提升 6-35%

核心思想

符号回归(Symbolic Regression)是从数据中发现简洁数学方程的任务——给定 $(x_i, y_i)$ 数据对,找到 $f$ 使得 $f(x_i) \approx y_i$,同时方程要尽可能简洁可解释。

现有方法中,LLM 只是被动地”提出候选方程”。SR-Scientist 将 LLM 变成自主的 AI 科学家

  1. 自己写代码分析数据
  2. 自己提出方程假设
  3. 自己提交评估、查看结果
  4. 自己根据反馈迭代改进

结果:跨化学、生物、物理、材料科学 4 个学科,比基线提升 6-35%

背景知识

什么是符号回归

与普通回归(拟合固定形式的参数)不同,符号回归同时搜索方程形式和参数

方法 搜索内容 示例
线性回归 参数 $(a, b)$ $y = ax + b$
神经网络 权重矩阵 $y = \text{NN}(x)$(黑箱)
符号回归 方程结构 + 参数 $y = a \sin(bx) + c e^{-dx}$

难点:方程结构的搜索空间是组合爆炸的——运算符、函数、变量的排列组合无穷多。

传统符号回归方法

方法 策略 局限
GPLearn 遗传算法进化方程 纯随机搜索,效率低
PySR 多目标遗传算法 对复杂方程力不从心
DSR/uDSR 深度学习引导搜索 缺乏科学直觉
LLM-SR LLM 提出候选方程 LLM 是被动的,不能分析数据

为什么 LLM 适合做符号回归

LLM 具有:

  • 科学知识:知道物理定律、化学方程的常见形式
  • 代码能力:能写代码分析数据特征(周期性、指数衰减等)
  • 推理能力:能根据反馈调整假设

但需要工具来弥补 LLM 不擅长的精确数值计算。

方法详解

1. 推理框架(Algorithm 1)

智能体的轨迹由三元组序列组成:$(r_i, T_i, o_i)$

  • $r_i$:自然语言推理(”数据看起来有周期性…”)
  • $T_i \subseteq T$:调用的工具
  • $o_i$:工具返回的观察结果

工具设计

$T_1$:数据分析器

  • 是一个代码解释器,可以访问观测数据
  • 智能体可以写代码做统计分析(画图、FFT、自相关等)
  • 帮助发现数据中的模式

$T_2$:方程评估器

  • 接受带参数占位符的方程骨架(如 $y = a \sin(bx + c)$)
  • BFGS 优化拟合参数
  • 报告性能指标:MSE、NMSE、MAPE

经验缓冲区

维护历史探索记录 $E = {(e_i, s_i)}_{i=1}^N$——存储已探索的方程和对应的 MAPE 分数。

关键设计:每次迭代开始时,取 Top-K 最优方程作为上下文示例 → 解决 LLM 上下文长度限制问题。

评估指标

\[\text{MAPE} = \frac{100\%}{n} \sum_{i=1}^{n} \left|\frac{y_i - f(x_i)}{y_i}\right|\]

2. 训练框架

2.1 奖励设计

对数线性函数将 MAPE 分数映射到 $[0, 1]$:

\[\mathcal{R} = \text{clip}\left(\frac{\lg s_{\max} - \lg s}{\lg s_{\max} - \lg s_{\text{goal}}}, 0, 1\right)\]
  • $s_{\max}$:MAPE 上限阈值
  • $s_{\text{goal}}$:目标精度
  • 对数尺度使奖励对精度提升更敏感

2.2 GRPO 训练

使用 Group Relative Policy Optimization(无 KL 惩罚项):

\[J_{\text{GRPO}}(\theta) = \mathbb{E}\left[\frac{1}{G} \sum_{i=1}^{G} \min\left(\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)} A_i, \text{clip}\left(\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)}, 1-\varepsilon, 1+\varepsilon\right) A_i\right)\right]\]

其中 $A_i$ 是组内相对优势(不需要单独的价值网络)。

2.3 训练数据合成

配置
学科 化学、生物、物理、材料科学
数据生成 LLM 合成方程骨架 + 规则生成
静态系统 均匀采样
动态系统 SciPy solve_ivp(RK45)
去重后总数 1024 个问题
RL 训练硬件 32 × NVIDIA H200 GPU
RL 框架 verl

3. 运行配置

参数
每次迭代最大轮数 25
总迭代次数 40
LLM 调用次数上限 ~1000 次/问题
经验缓冲区大小 Top-K 最优方程

实验结果

评估数据集

LLM-SRBench Synthetic (LSR-Synth):129 个问题

  • 化学 36、生物 24、物理 44、材料科学 25
  • 每个问题有训练集、域内测试集、域外测试集

评估指标

  • $\text{Acc}_\tau$:$\max (\hat{y}_i - y_i)/y_i \le \tau$ → $\tau \in {0.01, 0.001}$
  • 符号准确度:方程结构是否匹配真实方程

主要结果

模型 $\text{Acc}_{0.01}$ $\text{Acc}_{0.001}$
GPLearn
PySR 中低
LLM-SR (Qwen3-480B) 41.08%
SR-Scientist (GPT-OSS-120B) 63.57% 49.35%
SR-Scientist (Qwen3-480B) 49.09% 24.55%
SR-Scientist (GLM-4.5-Air) 48.32% 25.06%

最佳配置比之前最好的 LLM-SR 提升 22.5 个百分点

RL 训练效果

模型 $\text{Acc}_{0.01}$
Qwen3-30B(基线) 32.30%
Qwen3-30B + RL 40.92%

RL 训练带来 +8.6% 的提升。

符号准确度

方法 符号准确度
uDSR 0.77%
PySR 4.65%
LLM-SR 5.43%
SR-Scientist 7.00-7.75%

SR-Scientist 发现了最多与真实方程结构匹配的方程。

噪声鲁棒性

在 $\sigma \in {0.01, 0.05, 0.1}$ 的高斯噪声下,所有方法性能下降,但 SR-Scientist 始终保持最优,尤其是 Qwen3-480B 和 GLM-4.5-Air 骨干。

消融实验

变体 效果
无数据分析器 ($T_1$) 下降 6-28 个百分点
无经验缓冲区 下降 8-22 个百分点
完整方法 最优

两个组件都至关重要

轮数分析

固定 ~1000 次 LLM 调用,改变最大轮数(10→40):

  • 10→25 轮:性能显著提升
  • 25→40 轮:性能饱和
  • 最优策略:较少迭代次数 × 较多单次轮数

工具调用行为

模型类型 方程评估占比 数据分析占比
Qwen/GLM ~80% ~20%
GPT-OSS-120B 更灵活 更多残差分析
RL 训练后 数据统计使用增加

个人思考

  1. “AI 科学家”而非”AI 计算器”:SR-Scientist 不只是拟合方程,而是分析数据 → 提出假设 → 验证 → 迭代——这是科学发现的完整循环。
  2. 经验缓冲区解决了上下文长度限制:40 轮迭代 × 25 步/轮 = 1000 步的完整历史远超上下文窗口 → 只保留 Top-K 最优方程是优雅的压缩方式。
  3. 数据分析器是关键差异化因素:消融实验中去掉 $T_1$ 后下降 6-28 个百分点 → 说明”先分析数据特征再猜方程”比”直接猜方程”高效得多。
  4. GRPO 无 KL 项的选择:符号回归需要大胆探索新的方程形式 → KL 正则化会限制探索 → 去掉 KL 是合理的。
  5. 符号准确度仍然很低(7.75%):说明发现精确的科学方程仍然极具挑战——大部分”正确”的方程只是数值拟合好,但结构不同。
← 返回列表