← 返回列表

LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

作者 Zebin You, Shen Nie, Xiaolu Zhang, Jun Hu, Jun Zhou, Zhiwu Lu, Ji-Rong Wen, Chongxuan Li

年份 2025

会议/期刊 arXiv 2025

评分 ★ ★ ★ ★ ★

标签扩散模型多模态

摘要首个纯扩散多模态语言模型：LLaDA-8B + SigLIP2 视觉编码器 + MLP 连接器，在知识推理任务上展现更优的数据扩展性

论文原文代码仓库

核心思想

LLaDA-V 是首个纯扩散驱动的多模态语言模型——将 LLaDA（掩码扩散语言模型）与视觉编码器结合。尽管语言基座（LLaDA-8B）弱于 LLaMA3-8B，LLaDA-V 在多模态基准上表现竞争力，且在知识和推理任务上展现出更优的数据扩展性。

方法详解

1. 架构组件

组件	选择
视觉编码器	SigLIP2 (so400m-patch14-384)
语言模型	LLaDA-8B-Instruct（掩码扩散模型）
连接器	两层 MLP
注意力机制	双向（无因果掩码）

2. 掩码扩散前向过程

\[q_{t|0}(x_t | x_0) = \prod_i q_{t|0}(x_t^i | x_0^i) \tag{2}\] \[q_{t|0}(x_t^i | x_0^i) = \begin{cases} \alpha_t = 1-t, & \text{if } x_t^i = x_0^i \\ 1-\alpha_t = t, & \text{if } x_t^i = [M] \end{cases}\]

每个 token 独立地以概率 $t$ 被替换为 mask。

3. 多轮对话训练目标

\[\mathcal{L} = -\mathbb{E}\left[\frac{1}{t} \sum_i \sum_j \mathbf{1}[r_t^{1,i} = [M] \wedge r_t^{2,j} = [M]] \log p_\theta(r_0^{1,i}, r_0^{2,j} | v, p_0^1, r_t^1, p_0^2, r_t^2)\right] \tag{1}\]

其中 $v$ 为视觉特征，$p_0^k$ 为第 $k$ 轮 prompt（始终未掩码），$r_t^k$ 为第 $k$ 轮 response（施加掩码）。

关键：双向注意力允许 response token 跨对话轮次相互关注——这是自回归模型中对话级因果掩码所不允许的。

4. 推理过程

低置信度重掩码采样算法：

输入：图像特征 v，prompt p₀，response 长度 L'，步数 N
初始化 r₁ = [M, M, ..., M]（全 mask，长度 L'）
for n = N-1 to 0:
    t = (n+1)/N,  s = n/N
    # 预测：模型输出所有 mask 位置的 token 分布
    p_θ(r₀ | v, p₀, rₜ) → 得到每个位置的预测和置信度
    # 选择：保留置信度最高的 ⌊L'(1-s)⌋ 个 token
    # 重掩码：将其余 ⌊L's⌋ 个低置信度位置重设为 [M]
    rₛ = 保留高置信度预测 + 重掩码低置信度位置
return r₀

关键细节：

response 长度 $L’$ 是用户指定的超参数（消融实验表明结果对 $L’$ 不敏感）
不足的部分用 |EOS| 填充，模型自然学会在适当位置停止
步数 $N$ 越大，生成质量越高但速度越慢（典型 $N = 50\sim200$）

5. 三阶段训练

Stage 1：语言-图像对齐

数据：LLaVA-Pretrain 558K 样本
冻结语言和视觉模型，仅训练 MLP 连接器
学习率：$10^{-3}$

Stage 2：视觉指令微调

Phase A：单图像训练，MAmmoTH-VL 10M 样本
Phase B：OneVision 训练，2M 多样化多模态样本
视觉编码器学习率 $2 \times 10^{-6}$，语言模型 $10^{-5}$

Stage 3：多模态推理增强

推理训练：VisualWebInstruct 900K QA 对
平衡推理：混合 VisualWebInstruct + MAmmoTH-VL
使用 /think 和 /no_think 标签控制推理模式

实验结果

知识与推理基准

基准	LLaDA-V	LLaMA3-V	Qwen2-VL
MMMU (val)	48.6	45.4	54.1
MMMU-Pro	35.2	28.3	43.5
MMStar	60.1	56.5	60.7
MMBench (en-dev)	82.9	79.8	—
MathVista	59.7	62.1	58.2

文档与场景基准

基准	LLaDA-V	LLaMA3-V	Qwen2-VL
AI2D	77.8	81.1	83.0
ChartQA	78.3	77.8	83.0
DocVQA	83.9	86.2	—
InfoVQA	66.3	58.9	—
VideoMME	56.1	55.8	—

数据扩展性

LLaDA-V 在数据量增加时表现出更优的扩展特性：

MMMU-Pro：LLaDA-V 在 1M 样本时（26.01）已超过 LLaMA3-V 在 9M 样本时的性能
知识推理任务上优势明显；场景/文档任务上仍有差距

注意力机制消融

配置	MMMU	MMBench	MuirBench
对话级因果	42.89	75.42	28.69
双向（无掩码）	44.67	76.71	33.88

双向注意力在 12 个基准中的 7 个上优于因果注意力。

个人思考

纯扩散多模态模型的可行性被首次证明：不需要自回归解码器也能做好视觉问答。
数据扩展性优势是最引人注目的发现——同样的数据量下，扩散模型比自回归模型学到更多，暗示扩散的双向建模更数据高效。
双向注意力的多轮对话优势合理：后面的回复可以关注前面的上下文，前面的上下文也可以被后面的信息”修正”。
Stage 3 的 think/no_think 标签是巧妙的工程设计——让模型在简单问题上直接回答，复杂问题上展开推理。
局限性：图像处理（分割-缩放-拼接）不如 Qwen2-VL 的原生动态分辨率高效，这是工程层面的改进空间。

← 返回列表