← 返回列表

SCALE: Selective Resource Allocation for Test-Time Mathematical Reasoning

作者 Yang Xiao, Chunpu Xu, Ruifeng Yuan, Jiashuo Wang, Wenjie Li, Pengfei Liu

年份 2025

会议/期刊 arXiv 2025

评分 ★ ★ ★ ★ ★

标签推理扩展数学推理双过程理论

摘要受双过程认知理论启发的测试时资源分配：分解子问题 → 评估难度 → 选择性分配 System1/System2，AIME25 上 +13.75pp 且 token 减少 33-53%

论文原文代码仓库

核心思想

当前测试时扩展（test-time scaling）的方法对所有推理子问题均匀分配计算资源，导致：

简单子问题浪费资源（不需要深度思考）
困难子问题资源不足（需要更多推理步骤）

SCALE 借鉴认知科学的双过程理论，选择性地为不同难度的子问题分配资源：

System 1（快思考）：处理常规运算（如基础代数）
System 2（慢思考）：处理复杂推理（如组合论证）

结果：AIME25 上 +13.75 个百分点（57.50% → 71.25%），同时 token 消耗减少 33-53%。

背景知识

什么是测试时扩展

策略	方式	例子
Chain-of-Thought	逐步推理	“先算…再算…”
多数投票	生成多个答案取众数	8 个样本投票
迭代推理	多轮推理+中间总结	InftyThink
选择性分配	按子问题难度分配	SCALE

双过程认知理论

心理学家 Daniel Kahneman 提出人类有两种思考模式：

模式	特征	例子
System 1	快速、直觉、自动	“2+3=5”
System 2	缓慢、审慎、耗费认知资源	“证明 √2 是无理数”

SCALE 将这一理论应用到 LLM：简单子问题用轻量推理（System 1），复杂子问题用深度推理（System 2）。

方法详解

1. 四阶段框架

Stage 1：问题分解

将原始数学问题 $P$ 分解为子问题序列：

\[D(P) = \{s_1, s_2, \ldots, s_n\}\]

生成多个分解方案，选择最优的：

\[D^* = \arg\max_{D_j \in \{D_1, \ldots, D_k\}} Q(D_j, P)\]

其中 $Q$ 评估逻辑正确性、清晰度、完整性和解题相关性。

Stage 2：难度评估

对每个子问题评估难度：

\[d_i = A(s_i, C_i) \in [0, 1]\]

评估维度包括：

计算复杂度：运算量大小
数学深度：需要的数学知识层次
推理深度：逻辑链条长度
不确定性：解题路径的明确程度

$C_i$ 包含原始问题和已解决的子问题上下文。

Stage 3：自适应模式选择

基于阈值 $\tau$ 分配处理模式：

\[m_i = \begin{cases} \text{LLM}_\text{System1}, & \text{if } d_i \leq \tau \\ \text{LLM}_\text{System2}, & \text{if } d_i > \tau \end{cases}\]

System 1：快速高效处理（短 token 预算）
System 2：深度 CoT 推理（长 token 预算）

Stage 4：顺序执行与上下文传播

每个子问题的上下文包含所有已解决子问题的结果：

\[C_i = \begin{cases} P, & \text{if } i = 1 \\ P \cup \bigcup_{j=2}^{i} \{s_j, S(s_j)\}, & \text{if } i \geq 2 \end{cases}\]

解题过程：

\[S(s_i) = m_i(C_i, s_i)\]

2. 概率框架

最终答案的联合概率：

\[P(\text{Answer} | P) = \prod_{i=1}^{n} P(S(s_i) | C_i, s_i)\]

直觉：整体正确率是每个子问题正确率的乘积 → 应该把资源集中在最容易出错的子问题上。

实验结果

Setting 1：推理模型增强（推理时）

Qwen3-32B

方法	AIME24 准确率	AIME24 Token	AIME25 准确率	AIME25 Token
CoT	73.33%	7,409	57.50%	6,839
InftyThink	83.75%	38,451	70.00%	36,640
多数投票	76.67%	59,279	53.33%	54,719
SCALE	82.92%	25,581	71.25%	26,643

SCALE 在 AIME25 上比 CoT 高 13.75pp，同时 token 比 InftyThink 少 27%。

QwQ-32B

方法	AIME24	AIME25	平均
CoT	75.00%	63.33%	78.40%
SCALE	79.40%	70.21%	81.95%

DeepSeek-R1-Distill-Qwen-32B

AIME25：SCALE 59.17% vs InftyThink 48.75%（+10.42pp）

Setting 2：非推理模型微调

用 SCALE 生成的推理轨迹微调非推理模型（仅 800 条数据）：

模型	AIME24（微调前→后）	AIME25（微调前→后）
Qwen2.5-32B	17.92% → 53.33%	16.67% → 39.17%
Qwen2.5-72B	17.92% → 54.17%	12.92% → 47.50%
Llama3.3-70B	24.58% → 63.51%	5.42% → 44.83%

Llama3.3-70B 的 AIME25 从 5.42% 飞跃到 44.83%（+39.41pp）。

阈值 $\tau$ 消融

$\tau$	AIME24 准确率	困难子问题占比	AIME25 准确率
0.2	78.75%	75.61%	63.75%
0.5	74.58%	55.68%	56.25%
0.7	50.00%	17.68%	39.17%
0.9	27.50%	0%	25.00%

最优 $\tau = 0.2$，约 75% 的子问题被分配 System 2——说明数学竞赛题大部分子问题都不简单。

推理时扩展曲线

System 2 的 token 预算从 4,096 到 32,768 变化：

AIME24/25：近乎线性提升（每翻倍 token 提升 10-15pp）
AMC23：逐渐饱和（简单问题居多，不需要更多资源）

个人思考

“不均匀分配”是直觉但被忽视的洞察：人类做数学题也不会对每一步投入相同精力——简单的口算一闪而过，难的步骤反复推敲。SCALE 把这种自然行为形式化了。
token 减少 33-53% 同时准确率提升——说明”更多计算≠更好结果”，精准分配比暴力堆量更有效。
$\tau = 0.2$ 的最优性出人意料：意味着对竞赛题来说，只有 25% 的子问题能用 System 1 快速处理——数学推理确实很难。
800 条数据微调 +39pp 说明 SCALE 生成的推理轨迹质量极高——分解+选择性推理的结构化轨迹比普通 CoT 更适合做训练数据。
跨模型一致有效说明瓶颈是通用的：不是某个模型的问题，而是”均匀分配”这种策略本身的根本局限。

← 返回列表