SCALE: Selective Resource Allocation for Test-Time Mathematical Reasoning
核心思想
当前测试时扩展(test-time scaling)的方法对所有推理子问题均匀分配计算资源,导致:
- 简单子问题浪费资源(不需要深度思考)
- 困难子问题资源不足(需要更多推理步骤)
SCALE 借鉴认知科学的双过程理论,选择性地为不同难度的子问题分配资源:
- System 1(快思考):处理常规运算(如基础代数)
- System 2(慢思考):处理复杂推理(如组合论证)
结果:AIME25 上 +13.75 个百分点(57.50% → 71.25%),同时 token 消耗减少 33-53%。
背景知识
什么是测试时扩展
| 策略 | 方式 | 例子 |
|---|---|---|
| Chain-of-Thought | 逐步推理 | “先算…再算…” |
| 多数投票 | 生成多个答案取众数 | 8 个样本投票 |
| 迭代推理 | 多轮推理+中间总结 | InftyThink |
| 选择性分配 | 按子问题难度分配 | SCALE |
双过程认知理论
心理学家 Daniel Kahneman 提出人类有两种思考模式:
| 模式 | 特征 | 例子 |
|---|---|---|
| System 1 | 快速、直觉、自动 | “2+3=5” |
| System 2 | 缓慢、审慎、耗费认知资源 | “证明 √2 是无理数” |
SCALE 将这一理论应用到 LLM:简单子问题用轻量推理(System 1),复杂子问题用深度推理(System 2)。
方法详解
1. 四阶段框架
Stage 1:问题分解
将原始数学问题 $P$ 分解为子问题序列:
\[D(P) = \{s_1, s_2, \ldots, s_n\}\]生成多个分解方案,选择最优的:
\[D^* = \arg\max_{D_j \in \{D_1, \ldots, D_k\}} Q(D_j, P)\]其中 $Q$ 评估逻辑正确性、清晰度、完整性和解题相关性。
Stage 2:难度评估
对每个子问题评估难度:
\[d_i = A(s_i, C_i) \in [0, 1]\]评估维度包括:
- 计算复杂度:运算量大小
- 数学深度:需要的数学知识层次
- 推理深度:逻辑链条长度
- 不确定性:解题路径的明确程度
$C_i$ 包含原始问题和已解决的子问题上下文。
Stage 3:自适应模式选择
基于阈值 $\tau$ 分配处理模式:
\[m_i = \begin{cases} \text{LLM}_\text{System1}, & \text{if } d_i \leq \tau \\ \text{LLM}_\text{System2}, & \text{if } d_i > \tau \end{cases}\]- System 1:快速高效处理(短 token 预算)
- System 2:深度 CoT 推理(长 token 预算)
Stage 4:顺序执行与上下文传播
每个子问题的上下文包含所有已解决子问题的结果:
\[C_i = \begin{cases} P, & \text{if } i = 1 \\ P \cup \bigcup_{j=2}^{i} \{s_j, S(s_j)\}, & \text{if } i \geq 2 \end{cases}\]解题过程:
\[S(s_i) = m_i(C_i, s_i)\]2. 概率框架
最终答案的联合概率:
\[P(\text{Answer} | P) = \prod_{i=1}^{n} P(S(s_i) | C_i, s_i)\]直觉:整体正确率是每个子问题正确率的乘积 → 应该把资源集中在最容易出错的子问题上。
实验结果
Setting 1:推理模型增强(推理时)
Qwen3-32B
| 方法 | AIME24 准确率 | AIME24 Token | AIME25 准确率 | AIME25 Token |
|---|---|---|---|---|
| CoT | 73.33% | 7,409 | 57.50% | 6,839 |
| InftyThink | 83.75% | 38,451 | 70.00% | 36,640 |
| 多数投票 | 76.67% | 59,279 | 53.33% | 54,719 |
| SCALE | 82.92% | 25,581 | 71.25% | 26,643 |
SCALE 在 AIME25 上比 CoT 高 13.75pp,同时 token 比 InftyThink 少 27%。
QwQ-32B
| 方法 | AIME24 | AIME25 | 平均 |
|---|---|---|---|
| CoT | 75.00% | 63.33% | 78.40% |
| SCALE | 79.40% | 70.21% | 81.95% |
DeepSeek-R1-Distill-Qwen-32B
AIME25:SCALE 59.17% vs InftyThink 48.75%(+10.42pp)
Setting 2:非推理模型微调
用 SCALE 生成的推理轨迹微调非推理模型(仅 800 条数据):
| 模型 | AIME24(微调前→后) | AIME25(微调前→后) |
|---|---|---|
| Qwen2.5-32B | 17.92% → 53.33% | 16.67% → 39.17% |
| Qwen2.5-72B | 17.92% → 54.17% | 12.92% → 47.50% |
| Llama3.3-70B | 24.58% → 63.51% | 5.42% → 44.83% |
Llama3.3-70B 的 AIME25 从 5.42% 飞跃到 44.83%(+39.41pp)。
阈值 $\tau$ 消融
| $\tau$ | AIME24 准确率 | 困难子问题占比 | AIME25 准确率 |
|---|---|---|---|
| 0.2 | 78.75% | 75.61% | 63.75% |
| 0.5 | 74.58% | 55.68% | 56.25% |
| 0.7 | 50.00% | 17.68% | 39.17% |
| 0.9 | 27.50% | 0% | 25.00% |
最优 $\tau = 0.2$,约 75% 的子问题被分配 System 2——说明数学竞赛题大部分子问题都不简单。
推理时扩展曲线
System 2 的 token 预算从 4,096 到 32,768 变化:
- AIME24/25:近乎线性提升(每翻倍 token 提升 10-15pp)
- AMC23:逐渐饱和(简单问题居多,不需要更多资源)
个人思考
- “不均匀分配”是直觉但被忽视的洞察:人类做数学题也不会对每一步投入相同精力——简单的口算一闪而过,难的步骤反复推敲。SCALE 把这种自然行为形式化了。
- token 减少 33-53% 同时准确率提升——说明”更多计算≠更好结果”,精准分配比暴力堆量更有效。
- $\tau = 0.2$ 的最优性出人意料:意味着对竞赛题来说,只有 25% 的子问题能用 System 1 快速处理——数学推理确实很难。
- 800 条数据微调 +39pp 说明 SCALE 生成的推理轨迹质量极高——分解+选择性推理的结构化轨迹比普通 CoT 更适合做训练数据。
- 跨模型一致有效说明瓶颈是通用的:不是某个模型的问题,而是”均匀分配”这种策略本身的根本局限。