← 返回列表

SCALE: Selective Resource Allocation for Test-Time Mathematical Reasoning

作者 Yang Xiao, Chunpu Xu, Ruifeng Yuan, Jiashuo Wang, Wenjie Li, Pengfei Liu
年份 2025
会议/期刊 arXiv 2025
评分
标签 推理扩展 数学推理 双过程理论
摘要 受双过程认知理论启发的测试时资源分配:分解子问题 → 评估难度 → 选择性分配 System1/System2,AIME25 上 +13.75pp 且 token 减少 33-53%

核心思想

当前测试时扩展(test-time scaling)的方法对所有推理子问题均匀分配计算资源,导致:

  • 简单子问题浪费资源(不需要深度思考)
  • 困难子问题资源不足(需要更多推理步骤)

SCALE 借鉴认知科学的双过程理论,选择性地为不同难度的子问题分配资源:

  • System 1(快思考):处理常规运算(如基础代数)
  • System 2(慢思考):处理复杂推理(如组合论证)

结果:AIME25 上 +13.75 个百分点(57.50% → 71.25%),同时 token 消耗减少 33-53%

背景知识

什么是测试时扩展

策略 方式 例子
Chain-of-Thought 逐步推理 “先算…再算…”
多数投票 生成多个答案取众数 8 个样本投票
迭代推理 多轮推理+中间总结 InftyThink
选择性分配 按子问题难度分配 SCALE

双过程认知理论

心理学家 Daniel Kahneman 提出人类有两种思考模式:

模式 特征 例子
System 1 快速、直觉、自动 “2+3=5”
System 2 缓慢、审慎、耗费认知资源 “证明 √2 是无理数”

SCALE 将这一理论应用到 LLM:简单子问题用轻量推理(System 1),复杂子问题用深度推理(System 2)。

方法详解

1. 四阶段框架

Stage 1:问题分解

将原始数学问题 $P$ 分解为子问题序列:

\[D(P) = \{s_1, s_2, \ldots, s_n\}\]

生成多个分解方案,选择最优的:

\[D^* = \arg\max_{D_j \in \{D_1, \ldots, D_k\}} Q(D_j, P)\]

其中 $Q$ 评估逻辑正确性、清晰度、完整性和解题相关性。

Stage 2:难度评估

对每个子问题评估难度:

\[d_i = A(s_i, C_i) \in [0, 1]\]

评估维度包括:

  • 计算复杂度:运算量大小
  • 数学深度:需要的数学知识层次
  • 推理深度:逻辑链条长度
  • 不确定性:解题路径的明确程度

$C_i$ 包含原始问题和已解决的子问题上下文。

Stage 3:自适应模式选择

基于阈值 $\tau$ 分配处理模式:

\[m_i = \begin{cases} \text{LLM}_\text{System1}, & \text{if } d_i \leq \tau \\ \text{LLM}_\text{System2}, & \text{if } d_i > \tau \end{cases}\]
  • System 1:快速高效处理(短 token 预算)
  • System 2:深度 CoT 推理(长 token 预算)

Stage 4:顺序执行与上下文传播

每个子问题的上下文包含所有已解决子问题的结果

\[C_i = \begin{cases} P, & \text{if } i = 1 \\ P \cup \bigcup_{j=2}^{i} \{s_j, S(s_j)\}, & \text{if } i \geq 2 \end{cases}\]

解题过程:

\[S(s_i) = m_i(C_i, s_i)\]

2. 概率框架

最终答案的联合概率:

\[P(\text{Answer} | P) = \prod_{i=1}^{n} P(S(s_i) | C_i, s_i)\]

直觉:整体正确率是每个子问题正确率的乘积 → 应该把资源集中在最容易出错的子问题上。

实验结果

Setting 1:推理模型增强(推理时)

Qwen3-32B

方法 AIME24 准确率 AIME24 Token AIME25 准确率 AIME25 Token
CoT 73.33% 7,409 57.50% 6,839
InftyThink 83.75% 38,451 70.00% 36,640
多数投票 76.67% 59,279 53.33% 54,719
SCALE 82.92% 25,581 71.25% 26,643

SCALE 在 AIME25 上比 CoT 高 13.75pp,同时 token 比 InftyThink 少 27%

QwQ-32B

方法 AIME24 AIME25 平均
CoT 75.00% 63.33% 78.40%
SCALE 79.40% 70.21% 81.95%

DeepSeek-R1-Distill-Qwen-32B

AIME25:SCALE 59.17% vs InftyThink 48.75%(+10.42pp

Setting 2:非推理模型微调

用 SCALE 生成的推理轨迹微调非推理模型(仅 800 条数据):

模型 AIME24(微调前→后) AIME25(微调前→后)
Qwen2.5-32B 17.92% → 53.33% 16.67% → 39.17%
Qwen2.5-72B 17.92% → 54.17% 12.92% → 47.50%
Llama3.3-70B 24.58% → 63.51% 5.42% → 44.83%

Llama3.3-70B 的 AIME25 从 5.42% 飞跃到 44.83%(+39.41pp)。

阈值 $\tau$ 消融

$\tau$ AIME24 准确率 困难子问题占比 AIME25 准确率
0.2 78.75% 75.61% 63.75%
0.5 74.58% 55.68% 56.25%
0.7 50.00% 17.68% 39.17%
0.9 27.50% 0% 25.00%

最优 $\tau = 0.2$,约 75% 的子问题被分配 System 2——说明数学竞赛题大部分子问题都不简单

推理时扩展曲线

System 2 的 token 预算从 4,096 到 32,768 变化:

  • AIME24/25:近乎线性提升(每翻倍 token 提升 10-15pp)
  • AMC23:逐渐饱和(简单问题居多,不需要更多资源)

个人思考

  1. “不均匀分配”是直觉但被忽视的洞察:人类做数学题也不会对每一步投入相同精力——简单的口算一闪而过,难的步骤反复推敲。SCALE 把这种自然行为形式化了。
  2. token 减少 33-53% 同时准确率提升——说明”更多计算≠更好结果”,精准分配比暴力堆量更有效
  3. $\tau = 0.2$ 的最优性出人意料:意味着对竞赛题来说,只有 25% 的子问题能用 System 1 快速处理——数学推理确实很难。
  4. 800 条数据微调 +39pp 说明 SCALE 生成的推理轨迹质量极高——分解+选择性推理的结构化轨迹比普通 CoT 更适合做训练数据。
  5. 跨模型一致有效说明瓶颈是通用的:不是某个模型的问题,而是”均匀分配”这种策略本身的根本局限。
← 返回列表