← 返回列表

DLLM Agent: See Farther, Run Faster

作者 Huiling Zhen, Weizhe Lin, Renxi Liu, Kai Han, Yiming Li, Yuchuan Tian, Hanting Chen, et al.

年份 2026

会议/期刊 arXiv 2026

评分 ★ ★ ★ ★ ★

标签扩散语言模型智能体工具使用

摘要扩散 LLM 作为智能体骨干：首次控制对比 DLLM vs AR 在相同框架下的行为差异，端到端速度提升 30%+，最高 8× 加速，更少工具调用 + 更强全局规划

论文原文代码仓库

核心思想

扩散语言模型（DLLM）相比自回归（AR）模型有理论上的优势（双向注意力、并行生成），但在智能体场景下是否真的更好？

DLLM Agent 首次进行严格控制对比：在相同的 DeepDiver 智能体框架、相同的训练数据、相同的工具集下，只替换生成骨干（DLLM vs AR）。

关键发现：

DLLM 智能体端到端速度快 30%+，某些场景 8× 加速
更少的交互轮次和工具调用 → 更高效的规划
但工具调用格式错误率更高（6.4% vs 1.9%）→ 需要针对性优化

背景知识

AR vs DLLM 在智能体场景的理论对比

维度	AR 智能体	DLLM 智能体
生成方式	逐 token 顺序	整个动作段并行去噪
规划	顺序承诺，错了需回溯	全局协调后再承诺
工具调用	参数逐字符生成	工具名和参数同时精炼
速度	受限于序列长度	块级并行

DeepDiver 工作流

多智能体分层协作：

Planner：任务分解
Information Seeker：知识检索（搜索、爬取、问答）
Writer：证据综合、生成报告

工具集：batch_web_search、url_crawler、document_qa、file_read、file_write

方法详解

1. 智能体微调

条件去噪损失：

仅对动作段加噪，保持历史上下文干净：

\[\mathcal{L} = \mathcal{L}_{\text{MDM}} + 0.5 \cdot \mathcal{L}_{\text{AR}}\]

$\mathcal{L}{\text{MDM}} = -\log p\theta(x \tilde{x}, c, k)$：掩码扩散损失
$\mathcal{L}{\text{AR}} = -\sum \log p\theta(x_i x_{<i}, c)$：辅助 AR 损失（$\lambda = 0.5$）

2. 多轮掩码设计

两个关键修改：

上下文干净损毁：噪声仅施加在动作段，历史上下文保持完整 → 模型学会”在干净历史上做决策”。

跨段注意力掩码：防止双向注意力跨越上下文-动作边界 → 保持因果依赖关系。

每个修改独立贡献 ~1% 鲁棒性提升。

3. 控制变量实验设计

变量	设置
智能体框架	DeepDiver（完全相同）
工具 API	完全相同
训练数据	完全相同的轨迹
上下文	32K
最大轮次	15
唯一变量	生成机制（AR vs DLLM）

实验结果

主要结果（BrowseComp-zh，110 题）

指标	AR 智能体	DLLM 智能体
准确率	15.5%	15.5%（持平）
工具调用次数	7.5	6.7（-11%）
交互轮次	14.8	13.0（-12%）
无效动作率	1.9%	6.4%（更高）

准确率持平，但用了更少的工具调用和交互轮次。

速度提升案例

案例 1：多约束检索（识别特定半导体公司）

指标	AR	DLLM
时间	1152.68s	140.95s
工具调用	多次验证循环	4 次（think→assign→read→terminate）
加速	—	8.18×

案例 2：开放式报告（特斯拉 Q3 分析）

指标	AR	DLLM
时间	715.31s	490.25s
加速	—	1.46×

→ 规划密集型任务加速最大（8×），生成密集型任务加速较小（1.5×）。

Seeker 调用效率

指标	AR	DLLM
每查询 Seeker 调用	10.4	8（-23%）

工具调用失败分析

DLLM 的 6.4% 无效率来自：

缺少分隔符
格式错误的 JSON schema
无效参数

原因：扩散去噪过程中的噪声可能破坏结构化语法 → 需要更强的工具调用监督和置信度门控。

注意力动态分析

Planner 行为对比

DLLM Planner：

Phase 1（理解/摘要）：在 2 个扩散步骤内并行提取 4 个查询约束
Phase 2（任务分解）：块开始时熵高（规划不确定），完成时熵低

AR Planner：

必须顺序生成所有要点
早期选择可能与后续不一致 → 需要后期重新表述

Information Seeker 行为

两阶段模式：

工具选择阶段：高并行度快速确定
参数填充阶段：保持并行精炼

始终保持高 tokens-decoded-per-step → 强并行精炼能力。

三个范式特征

特征	AR	DLLM
决策模式	顺序承诺 → 回溯	全局协调 → 一次承诺
动作形成	逐 token 构建	整段精炼
规划意识	回顾性	前瞻性（双向条件化）

个人思考

“准确率持平但快 30%” 是最实用的结论：DLLM 智能体不是”更聪明”而是“更高效” → 用更少的步骤达到相同结果。
8× 加速在规划密集型任务说明 DLLM 的真正优势是全局规划 → 它能”看到整个动作”再决定，而 AR 必须逐字承诺可能导致大量回溯。
6.4% 无效动作率是需要解决的关键瓶颈：工具调用需要严格的格式（JSON schema），但扩散过程的随机性可能破坏语法 → 可能需要格式约束解码或后处理验证。
注意力动态分析提供了第一手证据：DLLM 确实在”并行思考” → 不是简单的速度提升，而是本质不同的决策过程。
“先全局再局部” vs “先局部再回溯” 的对比揭示了两种范式的核心差异 → DLLM 天然适合需要全局一致性的任务（规划、代码生成），AR 可能在纯生成任务上仍有优势。

← 返回列表