← 返回列表

VFScale: Intrinsic Reasoning through Verifier-Free Test-time Scalable Diffusion Model

作者 Tao Zhang, Jia-Shu Pan, Ruiqi Feng, Tailin Wu
年份 2025
会议/期刊 ICLR 2026
评分
标签 扩散模型 测试时缩放 推理增强
摘要 无需外部验证器的扩散模型测试时缩放:MRNCL 损失 + KL 正则化修正能量景观 + 混合 MCTS 搜索,6×6 训练外推至 15×15 迷宫达 88% 成功率

核心思想

扩散模型的测试时缩放(test-time scaling)可以让模型在推理时投入更多计算来解决更难的问题——类似人类的”系统 2 思考”。但现有方法依赖外部验证器来评估候选解的质量。

VFScale 的核心洞察:扩散模型的内在能量函数本身就可以作为验证器 → 但需要两个训练改进来确保能量函数的可靠性:

  1. MRNCL 损失:强制能量值与解的质量单调对应
  2. KL 正则化:平滑能量景观,避免局部最优

推理时用混合 MCTS(hMCTS)高效搜索 → 6×6 迷宫训练外推至 15×15,成功率 88%

背景知识

测试时缩放的类比

概念 语言模型 扩散模型
系统 1(快思考) 直接生成 标准去噪
系统 2(慢思考) CoT、搜索、多次采样 测试时缩放
验证器 奖励模型 外部验证器 or 内在能量
搜索方法 beam search、MCTS BoN、MCTS

为什么扩散模型的能量函数不可直接用

问题 说明
能量-质量不一致 低能量不一定对应好的解
局部最优 能量景观有很多陷阱
不区分微小差异 接近正确但有小错的解,能量可能与完全错误的解相同

方法详解

1. MRNCL 损失(单调回归负对比学习)

目标:确保能量值随解的质量单调递增(质量越差 → 能量越高)。

步骤

  1. 从正样本 $x_0$ 生成两个负样本 $x_0^-$、$x_0^{–}$,其中 $|x_0^{–} - x_0|_2 > |x_0^- - x_0|_2$
  2. 加噪得到 $x_t$、$x_t^-$、$x_t^{–}$
  3. 对三个点 ${(0, E_t^+), (\ell_{2,0}^-, E_t^-), (\ell_{2,0}^{–}, E_t^{–})}$ 做线性回归,得到斜率 $k_t$ 和截距 $b_t$
  4. 损失函数:
\[\mathcal{L}_{\text{MRNCL}} = \mathbb{E}\left[\max(0, \gamma - k_t) + \|E_t^+ - \hat{E}_t^+\|_2^2 + \|E_t^- - \hat{E}_t^-\|_2^2 + \|E_t^{--} - \hat{E}_t^{--}\|_2^2\right]\]
  • $\max(0, \gamma - k_t)$:强制斜率 $k_t \geq \gamma$ → 能量随 L2 距离单调递增
  • MSE 项:确保能量值贴合回归线 → 不仅方向对,数值也准

2. KL 正则化

\[\mathcal{L}_{\text{KL}} = \mathbb{E}_{t, p_{\theta,t}(x)}\left[E_{\text{stop-grad}(\theta)}(x)\right] + \mathbb{E}_{t, p_{\theta,t}(x)}\left[\log p_{\theta,t}(x)\right]\]
  • 第一项:鼓励低能量样本 → 推动分布向高质量解集中
  • 第二项:鼓励高熵 → 保持样本多样性,避免模式坍缩
  • 每个去噪步操作(不同于先前工作)
  • 使用 k-近邻近似估计熵

3. 总训练目标

\[\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{MSE}} + \mathcal{L}_{\text{Contrast}} + \mathcal{L}_{\text{MRNCL}} + \mathcal{L}_{\text{KL}}\]

前两项来自基线能量扩散模型。

4. 混合蒙特卡洛树搜索(hMCTS)

核心思想:噪声大时广搜(BoN),噪声小时深搜(MCTS)。

Phase 1($t = T \to t_s$):Best-of-N 并行搜索

\[x_{t_s} \leftarrow \arg\min_k E_\theta(x_{t_s}^{(k)}), \quad k = 1, \ldots, L\]

生成 $L$ 个并行轨迹,保留能量最低的。

Phase 2($t = t_s \to 1$):MCTS 精细搜索

每步运行 $N_r$ 次 rollout:

  1. 选择(UCB):
\[\text{UCB}(x_t, a_t) = Q(x_t, a_t) + c \cdot \frac{\ln N_i}{n_i}\]
  1. 扩展:生成 $K$ 个子节点(不同高斯噪声采样)
\[x_{t'-1}^{(k)} = \text{denoise}(x_{t'}, \epsilon^{(k)}), \quad k = 1, \ldots, K\]
  1. 模拟:从随机子节点用 DDIM 快速 rollout 到终态 $\hat{x}_0$

  2. 回传:更新路径上所有节点的价值

\[Q(x_{t'}) \leftarrow Q(x_{t'}) - E_\theta(\hat{x}_0)\]

动作选择:选 $Q(x_{t-1}^{(k)}) / N(x_{t-1}^{(k)})$ 最高的子节点。

5. 为什么分两阶段

阶段 噪声级别 能量估计质量 最优策略
早期($T \to t_s$) 不可靠 并行广搜(BoN)避免过早淘汰
晚期($t_s \to 1$) 可靠 深度搜索(MCTS)精细利用

实验结果

迷宫任务(6×6 训练 → 15×15 测试)

方法 N=1 N=41 N=81 N=161
原始 BoN 6.3% 7.8% 10.2% 10.9%
VFScale BoN 26.6% 68.8% 65.6% 70.3%
VFScale hMCTS 26.6% 79.7% 82.0% 88.3%
  • 原始模型即使 160× 采样也只有 ~11% → 能量不可靠导致搜索无效
  • VFScale + hMCTS 达到 88.3% → 2.5× 泛化(6→15 格)

数独任务(31-42 给定数字训练 → 17-34 测试)

方法 N=1 N=41 N=81 N=321
原始 BoN 8.6% 23.4% 24.2% 28.1%
VFScale BoN 7.0% 34.4% 35.2% 39.1%
VFScale hMCTS 7.0% 35.2% 36.7% 43.0%

能量-质量一致性

方法 一致性得分
原始 0.730
+ MRNCL 0.837
VFScale 完整 ~0.84+

MRNCL 将一致性提升 10+ 个百分点

消融实验(15×15 迷宫,N=81)

配置 成功率
原始 10.2%
+ MRNCL only 60.2%
+ KL only 58.6%
+ MRNCL + KL 65.6%

两个组件互补:MRNCL 保证能量方向,KL 平滑能量景观。

关键设计权衡

单步性能 vs 可扩展性:VFScale 在 N=1 时有时不如基线(26.6% vs 6.3% 看似好,但在某些设定下单步性能下降)→ MRNCL + KL 故意牺牲单步锐度以确保全局可导航性 → 计算越多获益越大。

内在 vs 外部验证器

训练外部验证器(0.99 相关性)反而比内在能量差 30% → 外部验证器无法区分微小质量差异,而内在能量函数与去噪过程深度耦合。

训练成本

任务 基线 VFScale
迷宫 2h 6h
数独 4h 7h

训练成本增加 2-3×,但换来巨大的推理能力提升。

个人思考

  1. “内在能量 > 外部验证器” 是反直觉但深刻的结果:专门训练的验证器(0.99 相关性)竟然不如模型自身的能量函数 → 因为能量函数与去噪过程共享同一表示空间,天然能区分更细微的质量差异。
  2. MRNCL 的”线性回归强制单调性” 是优雅的设计:不是简单地要求”好 > 坏”(对比学习),而是要求能量值与质量线性对应 → 提供更丰富的梯度信号。
  3. “故意牺牲单步性能换取可扩展性” 是测试时缩放的核心哲学:类似 o1 可能在简单问题上不如 GPT-4,但在难问题上远超 → 可扩展性 > 单步性能。
  4. hMCTS 的阶段切换利用了扩散模型的独特性质:高噪声时能量估计不可靠(像在大雾中搜索)→ 广搜不淘汰;低噪声时能量可靠(视野清晰)→ 深搜精确利用。
  5. 6×6 → 15×15 的 2.5× 泛化说明 VFScale 学到的不是”解 6×6 迷宫”而是通用的搜索和验证策略 → 这种泛化能力是测试时缩放的核心价值。
← 返回列表