Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space-深圳市維司達科技有限公司

Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space

Authors:Zihang Wang, Siyue Zhang, Yilun Zhao, Jingyi Yang, Tingyu Song, Anh Tuan Luu, Chen Zhao

Deep-Dive Summary:

多模态嵌入空间中的扩散与自回归视觉语言模型分析报告

这是一篇关于评估扩散视觉语言模型（Diffusion VLMs）作为多模态嵌入模型效果的研究。以下是该论文主要内容的中文摘要。

摘要

嵌入模型是现代 AI 系统（如语义搜索和检索增强生成）的基础。虽然大语言模型（LLMs）和视觉语言模型（VLMs）在嵌入领域取得了进展，但新兴的扩散大语言模型（dLLMs）是否能作为有效的多模态嵌入模型尚不明确。本研究系统地评估了前沿的扩散 VLMs（如 LaViDa, MMaDA）与自回归 VLMs（如 LLaVA-1.6, Qwen2.5-VL）在分类、视觉问答（VQA）和信息检索三大类任务中的表现。结果显示，扩散 VLMs 的表现普遍逊于自回归模型。其中 LaViDa 表现较为接近，而在 MMaDA 上存在显著差距（超过 20 个百分点）。进一步分析表明，扩散模型中图像与文本的对齐不足是导致其嵌入性能受限的主要原因。

1. 引言

嵌入模型将文本、视觉等输入映射为定维向量，用于高效的语义比较和检索。近期，基于 LLM 和 VLM 的嵌入模型（如 E5, BGE, GME）发展迅速。与此同时，基于离散扩散过程的 dLLMs（如 LLaDA, Dream）凭借双向注意力和并行生成的优势，成为了自回归模型的有力竞争者。

本研究首次对扩散和自回归 VLM 嵌入模型进行了系统性评估。通过对比微调，在 32 个数据集上进行测试，探讨扩散模型是否能利用其固有的双向注意力机制在嵌入任务中获得优势。

图 1：三个多模态嵌入元任务的平均性能。总体而言，尽管使用了双向注意力，扩散 VLM 嵌入的表现仍逊于自回归 VLM。不过不同扩散模型之间存在显著差异，LaViDa 保持了竞争力，而 MMaDA 差距较大。

2. 背景

多模态嵌入任务：旨在学习一个统一的表示空间，使得不同模态（如文本和图像）的语义相关内容可以被直接比较。
多模态大扩散语言模型：与自回归 LLM 不同，dLLMs 通过迭代去噪过程重建受损的标记序列。最近的研究（如 LaViDa, MMaDA）将这一范式扩展到多模态，结合了视觉编码器和多模态微调。

3. 扩散 VLM 嵌入

扩散 VLM 嵌入模型通过视觉编码器整合图像输入，并利用 VLM 主干网络共同处理图文。自回归模型通常使用最后一个标记（last-token）的表示，而扩散模型则通过均值池化（mean pooling）聚合上下文表示。

在对比微调过程中，查询q qq（包含图像、指令和文本）和目标t tt被编码为稠密向量h hh。优化目标是标准的 InfoNCE 损失L \mathcal{L}L：

min ⁡ L = − log ⁡ ϕ ( h q , h t + ) ϕ ( h q , h t + ) + ∑ t − ϕ ( h q , h t − ) \min \mathcal{L} = -\log \frac{\phi(\mathbf{h}_q,\mathbf{h}_t + )}{\phi(\mathbf{h}_q,\mathbf{h}_t + ) + \sum_{t^{-}}\phi(\mathbf{h}_q,\mathbf{h}_t - )}minL=−logϕ(hq,ht+)+∑t−ϕ(hq,ht−)ϕ(hq,ht+)

其中ϕ \phiϕ是温度缩放后的余弦相似度。

图 2 展示了自回归与扩散架构在注意力机制上的区别：自回归模型使用因果注意力（Causal Attention），而扩散模型支持双向注意力（Bidirectional Attention）。

4. 实验设置

4.1 任务

评估涵盖了三大元任务，均被建模为排名问题：

分类：评估模型捕获判别性语义特征的能力（如对象类别、主题标签）。
视觉问答 (VQA)：将 VQA 视为在候选答案空间中的检索任务。
信息检索：评估跨模态对齐和指令遵循能力（如根据图文指令检索目标图像）。

4.2 模型

自回归模型：LLaVA-1.6 (7B), Qwen2.5-VL (7B)。
扩散模型：MMaDA (8B), LaViDa (7B)。

5. 实验结果

表 2：10 个 VQA 任务的性能对比。

数据集	LLaVA-1.6	Qwen2.5-VL	MMaDA	LaViDa
OK-VQA	73.1	58.1	42.0	61.1
DocVQA	78.7	90.1	17.2	82.9
GQA	60.7	47.4	51.1	67.0
所有 VQA 平均	57.8	59.0	25.9	57.5

总体表现：自回归模型一致优于扩散模型。LaViDa 的差距较小（约 2.5-4.4 点），而 MMaDA 在所有任务中均出现大幅下滑。
域外泛化：尽管 LaViDa 在域内任务表现稍逊，但在某些域外（out-of-domain）任务中表现出更强的鲁棒性，甚至超过了 LLaVA-1.6。
跨模态对齐缺陷：扩散模型在图像到文本检索任务中表现较差，反映了其图文对齐程度较低。

6. 分析

RQ1：微调数据量影响。所有模型的性能在少量数据下即迅速饱和。LLaVA-1.6 的数据效率最高。
RQ2：对齐可视化。通过 t-SNE 可视化发现，LaViDa 在微调早期图像和文本向量分布完全分离，即便在后期，其配对距离仍大于 LLaVA-1.6。

图 3：随着微调数据量的增加，不同模型的性能变化趋势。

图 4：MSCOCO_i2t 数据集上的查询-目标嵌入对 t-SNE 可视化。虚线连接对应的图文对，LaViDa 的对齐距离明显长于 LLaVA-1.6。

RQ3：视觉编码器微调。解冻 MMaDA 的视觉编码器并不能显著提升嵌入性能，表明主要限制在于大语言模型主干的表示能力。

7. 结论与局限性

本研究首次系统对比了扩散与自回归 VLMs 的多模态嵌入能力。虽然扩散模型拥有双向注意力优势，但目前在跨模态对齐和整体理解能力上仍落后于自回归模型。研究局限性包括由于资源限制未进行更大规模（百万级）的数据微调，以及未涵盖最新发布的 DiffusionVL 等新型模型。

Original Abstract:Embedding models are a fundamental component of modern AI systems such as semantic search and retrieval-augmented generation. Recent advances in large foundation models have substantially accelerated the development of embedding models, including those based on Large Language Models (LLMs), Vision Language Models (VLMs), and Multimodal LLMs. More recently, Large Diffusion Language Models (dLLMs) and Multimodal dLLMs have emerged as competitive alternatives to autoregressive models, offering advantages such as bidirectional attention and parallel generation. This progress naturally raises a critical yet unexplored question: can Multimodal dLLMs serve as effective multimodal embedding models? To answer this, we present the first systematic study of converting Multimodal dLLMs into embedding models. We evaluate state-of-the-art Multimodal dLLMs and Autoregressive VLMs across three categories of embedding tasks: classification, visual question answering, and information retrieval. Our results show that Multimodal dLLM embeddings generally underperform their autoregressive VLM counterparts. The stronger diffusion-based model, LaViDa, lags by only 3.5 points on classification, 2.5 points on VQA, and 4.4 points on retrieval tasks, whereas the other diffusion-based model, MMaDA, exhibits substantially larger performance gaps, exceeding 20 points across all tasks. Further analysis reveals insufficient image-text alignment in diffusion-based models, accounting for the observed limitations in their embedding performance.

PDF Link:2602.06056v1

P0926CP控制处理器模块

Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space