DLLM Agent: See Farther, Run Faster
核心思想
扩散语言模型(DLLM)相比自回归(AR)模型有理论上的优势(双向注意力、并行生成),但在智能体场景下是否真的更好?
DLLM Agent 首次进行严格控制对比:在相同的 DeepDiver 智能体框架、相同的训练数据、相同的工具集下,只替换生成骨干(DLLM vs AR)。
关键发现:
- DLLM 智能体端到端速度快 30%+,某些场景 8× 加速
- 更少的交互轮次和工具调用 → 更高效的规划
- 但工具调用格式错误率更高(6.4% vs 1.9%)→ 需要针对性优化
背景知识
AR vs DLLM 在智能体场景的理论对比
| 维度 | AR 智能体 | DLLM 智能体 |
|---|---|---|
| 生成方式 | 逐 token 顺序 | 整个动作段并行去噪 |
| 规划 | 顺序承诺,错了需回溯 | 全局协调后再承诺 |
| 工具调用 | 参数逐字符生成 | 工具名和参数同时精炼 |
| 速度 | 受限于序列长度 | 块级并行 |
DeepDiver 工作流
多智能体分层协作:
- Planner:任务分解
- Information Seeker:知识检索(搜索、爬取、问答)
- Writer:证据综合、生成报告
工具集:batch_web_search、url_crawler、document_qa、file_read、file_write
方法详解
1. 智能体微调
条件去噪损失:
仅对动作段加噪,保持历史上下文干净:
\[\mathcal{L} = \mathcal{L}_{\text{MDM}} + 0.5 \cdot \mathcal{L}_{\text{AR}}\]-
$\mathcal{L}{\text{MDM}} = -\log p\theta(x \tilde{x}, c, k)$:掩码扩散损失 -
$\mathcal{L}{\text{AR}} = -\sum \log p\theta(x_i x_{<i}, c)$:辅助 AR 损失($\lambda = 0.5$)
2. 多轮掩码设计
两个关键修改:
上下文干净损毁:噪声仅施加在动作段,历史上下文保持完整 → 模型学会”在干净历史上做决策”。
跨段注意力掩码:防止双向注意力跨越上下文-动作边界 → 保持因果依赖关系。
每个修改独立贡献 ~1% 鲁棒性提升。
3. 控制变量实验设计
| 变量 | 设置 |
|---|---|
| 智能体框架 | DeepDiver(完全相同) |
| 工具 API | 完全相同 |
| 训练数据 | 完全相同的轨迹 |
| 上下文 | 32K |
| 最大轮次 | 15 |
| 唯一变量 | 生成机制(AR vs DLLM) |
实验结果
主要结果(BrowseComp-zh,110 题)
| 指标 | AR 智能体 | DLLM 智能体 |
|---|---|---|
| 准确率 | 15.5% | 15.5%(持平) |
| 工具调用次数 | 7.5 | 6.7(-11%) |
| 交互轮次 | 14.8 | 13.0(-12%) |
| 无效动作率 | 1.9% | 6.4%(更高) |
准确率持平,但用了更少的工具调用和交互轮次。
速度提升案例
案例 1:多约束检索(识别特定半导体公司)
| 指标 | AR | DLLM |
|---|---|---|
| 时间 | 1152.68s | 140.95s |
| 工具调用 | 多次验证循环 | 4 次(think→assign→read→terminate) |
| 加速 | — | 8.18× |
案例 2:开放式报告(特斯拉 Q3 分析)
| 指标 | AR | DLLM |
|---|---|---|
| 时间 | 715.31s | 490.25s |
| 加速 | — | 1.46× |
→ 规划密集型任务加速最大(8×),生成密集型任务加速较小(1.5×)。
Seeker 调用效率
| 指标 | AR | DLLM |
|---|---|---|
| 每查询 Seeker 调用 | 10.4 | 8(-23%) |
工具调用失败分析
DLLM 的 6.4% 无效率来自:
- 缺少分隔符
- 格式错误的 JSON schema
- 无效参数
原因:扩散去噪过程中的噪声可能破坏结构化语法 → 需要更强的工具调用监督和置信度门控。
注意力动态分析
Planner 行为对比
DLLM Planner:
- Phase 1(理解/摘要):在 2 个扩散步骤内并行提取 4 个查询约束
- Phase 2(任务分解):块开始时熵高(规划不确定),完成时熵低
AR Planner:
- 必须顺序生成所有要点
- 早期选择可能与后续不一致 → 需要后期重新表述
Information Seeker 行为
两阶段模式:
- 工具选择阶段:高并行度快速确定
- 参数填充阶段:保持并行精炼
始终保持高 tokens-decoded-per-step → 强并行精炼能力。
三个范式特征
| 特征 | AR | DLLM |
|---|---|---|
| 决策模式 | 顺序承诺 → 回溯 | 全局协调 → 一次承诺 |
| 动作形成 | 逐 token 构建 | 整段精炼 |
| 规划意识 | 回顾性 | 前瞻性(双向条件化) |
个人思考
- “准确率持平但快 30%” 是最实用的结论:DLLM 智能体不是”更聪明”而是“更高效” → 用更少的步骤达到相同结果。
- 8× 加速在规划密集型任务说明 DLLM 的真正优势是全局规划 → 它能”看到整个动作”再决定,而 AR 必须逐字承诺可能导致大量回溯。
- 6.4% 无效动作率是需要解决的关键瓶颈:工具调用需要严格的格式(JSON schema),但扩散过程的随机性可能破坏语法 → 可能需要格式约束解码或后处理验证。
- 注意力动态分析提供了第一手证据:DLLM 确实在”并行思考” → 不是简单的速度提升,而是本质不同的决策过程。
- “先全局再局部” vs “先局部再回溯” 的对比揭示了两种范式的核心差异 → DLLM 天然适合需要全局一致性的任务(规划、代码生成),AR 可能在纯生成任务上仍有优势。