← 返回列表

DLLM Agent: See Farther, Run Faster

作者 Huiling Zhen, Weizhe Lin, Renxi Liu, Kai Han, Yiming Li, Yuchuan Tian, Hanting Chen, et al.
年份 2026
会议/期刊 arXiv 2026
评分
标签 扩散语言模型 智能体 工具使用
摘要 扩散 LLM 作为智能体骨干:首次控制对比 DLLM vs AR 在相同框架下的行为差异,端到端速度提升 30%+,最高 8× 加速,更少工具调用 + 更强全局规划

核心思想

扩散语言模型(DLLM)相比自回归(AR)模型有理论上的优势(双向注意力、并行生成),但在智能体场景下是否真的更好?

DLLM Agent 首次进行严格控制对比:在相同的 DeepDiver 智能体框架、相同的训练数据、相同的工具集下,只替换生成骨干(DLLM vs AR)。

关键发现:

  • DLLM 智能体端到端速度快 30%+,某些场景 8× 加速
  • 更少的交互轮次和工具调用 → 更高效的规划
  • 但工具调用格式错误率更高(6.4% vs 1.9%)→ 需要针对性优化

背景知识

AR vs DLLM 在智能体场景的理论对比

维度 AR 智能体 DLLM 智能体
生成方式 逐 token 顺序 整个动作段并行去噪
规划 顺序承诺,错了需回溯 全局协调后再承诺
工具调用 参数逐字符生成 工具名和参数同时精炼
速度 受限于序列长度 块级并行

DeepDiver 工作流

多智能体分层协作:

  • Planner:任务分解
  • Information Seeker:知识检索(搜索、爬取、问答)
  • Writer:证据综合、生成报告

工具集:batch_web_searchurl_crawlerdocument_qafile_readfile_write

方法详解

1. 智能体微调

条件去噪损失

仅对动作段加噪,保持历史上下文干净:

\[\mathcal{L} = \mathcal{L}_{\text{MDM}} + 0.5 \cdot \mathcal{L}_{\text{AR}}\]
  • $\mathcal{L}{\text{MDM}} = -\log p\theta(x \tilde{x}, c, k)$:掩码扩散损失
  • $\mathcal{L}{\text{AR}} = -\sum \log p\theta(x_i x_{<i}, c)$:辅助 AR 损失($\lambda = 0.5$)

2. 多轮掩码设计

两个关键修改:

上下文干净损毁:噪声仅施加在动作段,历史上下文保持完整 → 模型学会”在干净历史上做决策”。

跨段注意力掩码:防止双向注意力跨越上下文-动作边界 → 保持因果依赖关系。

每个修改独立贡献 ~1% 鲁棒性提升。

3. 控制变量实验设计

变量 设置
智能体框架 DeepDiver(完全相同)
工具 API 完全相同
训练数据 完全相同的轨迹
上下文 32K
最大轮次 15
唯一变量 生成机制(AR vs DLLM)

实验结果

主要结果(BrowseComp-zh,110 题)

指标 AR 智能体 DLLM 智能体
准确率 15.5% 15.5%(持平)
工具调用次数 7.5 6.7(-11%)
交互轮次 14.8 13.0(-12%)
无效动作率 1.9% 6.4%(更高)

准确率持平,但用了更少的工具调用和交互轮次

速度提升案例

案例 1:多约束检索(识别特定半导体公司)

指标 AR DLLM
时间 1152.68s 140.95s
工具调用 多次验证循环 4 次(think→assign→read→terminate)
加速 8.18×

案例 2:开放式报告(特斯拉 Q3 分析)

指标 AR DLLM
时间 715.31s 490.25s
加速 1.46×

→ 规划密集型任务加速最大(8×),生成密集型任务加速较小(1.5×)。

Seeker 调用效率

指标 AR DLLM
每查询 Seeker 调用 10.4 8(-23%)

工具调用失败分析

DLLM 的 6.4% 无效率来自:

  • 缺少分隔符
  • 格式错误的 JSON schema
  • 无效参数

原因:扩散去噪过程中的噪声可能破坏结构化语法 → 需要更强的工具调用监督和置信度门控。

注意力动态分析

Planner 行为对比

DLLM Planner

  • Phase 1(理解/摘要):在 2 个扩散步骤内并行提取 4 个查询约束
  • Phase 2(任务分解):块开始时熵高(规划不确定),完成时熵低

AR Planner

  • 必须顺序生成所有要点
  • 早期选择可能与后续不一致 → 需要后期重新表述

Information Seeker 行为

两阶段模式

  1. 工具选择阶段:高并行度快速确定
  2. 参数填充阶段:保持并行精炼

始终保持高 tokens-decoded-per-step → 强并行精炼能力。

三个范式特征

特征 AR DLLM
决策模式 顺序承诺 → 回溯 全局协调 → 一次承诺
动作形成 逐 token 构建 整段精炼
规划意识 回顾性 前瞻性(双向条件化)

个人思考

  1. “准确率持平但快 30%” 是最实用的结论:DLLM 智能体不是”更聪明”而是“更高效” → 用更少的步骤达到相同结果。
  2. 8× 加速在规划密集型任务说明 DLLM 的真正优势是全局规划 → 它能”看到整个动作”再决定,而 AR 必须逐字承诺可能导致大量回溯。
  3. 6.4% 无效动作率是需要解决的关键瓶颈:工具调用需要严格的格式(JSON schema),但扩散过程的随机性可能破坏语法 → 可能需要格式约束解码或后处理验证。
  4. 注意力动态分析提供了第一手证据:DLLM 确实在”并行思考” → 不是简单的速度提升,而是本质不同的决策过程
  5. “先全局再局部” vs “先局部再回溯” 的对比揭示了两种范式的核心差异 → DLLM 天然适合需要全局一致性的任务(规划、代码生成),AR 可能在纯生成任务上仍有优势。
← 返回列表