news 2026/4/23 15:31:57

Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space

Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space

Authors:Zihang Wang, Siyue Zhang, Yilun Zhao, Jingyi Yang, Tingyu Song, Anh Tuan Luu, Chen Zhao

Deep-Dive Summary:

多模态嵌入空间中的扩散与自回归视觉语言模型分析报告

这是一篇关于评估扩散视觉语言模型(Diffusion VLMs)作为多模态嵌入模型效果的研究。以下是该论文主要内容的中文摘要。

摘要

嵌入模型是现代 AI 系统(如语义搜索和检索增强生成)的基础。虽然大语言模型(LLMs)和视觉语言模型(VLMs)在嵌入领域取得了进展,但新兴的扩散大语言模型(dLLMs)是否能作为有效的多模态嵌入模型尚不明确。本研究系统地评估了前沿的扩散 VLMs(如 LaViDa, MMaDA)与自回归 VLMs(如 LLaVA-1.6, Qwen2.5-VL)在分类、视觉问答(VQA)和信息检索三大类任务中的表现。结果显示,扩散 VLMs 的表现普遍逊于自回归模型。其中 LaViDa 表现较为接近,而在 MMaDA 上存在显著差距(超过 20 个百分点)。进一步分析表明,扩散模型中图像与文本的对齐不足是导致其嵌入性能受限的主要原因。

1. 引言

嵌入模型将文本、视觉等输入映射为定维向量,用于高效的语义比较和检索。近期,基于 LLM 和 VLM 的嵌入模型(如 E5, BGE, GME)发展迅速。与此同时,基于离散扩散过程的 dLLMs(如 LLaDA, Dream)凭借双向注意力和并行生成的优势,成为了自回归模型的有力竞争者。

本研究首次对扩散和自回归 VLM 嵌入模型进行了系统性评估。通过对比微调,在 32 个数据集上进行测试,探讨扩散模型是否能利用其固有的双向注意力机制在嵌入任务中获得优势。

图 1:三个多模态嵌入元任务的平均性能。总体而言,尽管使用了双向注意力,扩散 VLM 嵌入的表现仍逊于自回归 VLM。不过不同扩散模型之间存在显著差异,LaViDa 保持了竞争力,而 MMaDA 差距较大。

2. 背景

  • 多模态嵌入任务:旨在学习一个统一的表示空间,使得不同模态(如文本和图像)的语义相关内容可以被直接比较。
  • 多模态大扩散语言模型:与自回归 LLM 不同,dLLMs 通过迭代去噪过程重建受损的标记序列。最近的研究(如 LaViDa, MMaDA)将这一范式扩展到多模态,结合了视觉编码器和多模态微调。

3. 扩散 VLM 嵌入

扩散 VLM 嵌入模型通过视觉编码器整合图像输入,并利用 VLM 主干网络共同处理图文。自回归模型通常使用最后一个标记(last-token)的表示,而扩散模型则通过均值池化(mean pooling)聚合上下文表示。

在对比微调过程中,查询q qq(包含图像、指令和文本)和目标t tt被编码为稠密向量h hh。优化目标是标准的 InfoNCE 损失L \mathcal{L}L

min ⁡ L = − log ⁡ ϕ ( h q , h t + ) ϕ ( h q , h t + ) + ∑ t − ϕ ( h q , h t − ) \min \mathcal{L} = -\log \frac{\phi(\mathbf{h}_q,\mathbf{h}_t + )}{\phi(\mathbf{h}_q,\mathbf{h}_t + ) + \sum_{t^{-}}\phi(\mathbf{h}_q,\mathbf{h}_t - )}minL=logϕ(hq,ht+)+tϕ(hq,ht)ϕ(hq,ht+)

其中ϕ \phiϕ是温度缩放后的余弦相似度。

图 2 展示了自回归与扩散架构在注意力机制上的区别:自回归模型使用因果注意力(Causal Attention),而扩散模型支持双向注意力(Bidirectional Attention)。

4. 实验设置

4.1 任务

评估涵盖了三大元任务,均被建模为排名问题:

  • 分类:评估模型捕获判别性语义特征的能力(如对象类别、主题标签)。
  • 视觉问答 (VQA):将 VQA 视为在候选答案空间中的检索任务。
  • 信息检索:评估跨模态对齐和指令遵循能力(如根据图文指令检索目标图像)。

4.2 模型

  • 自回归模型:LLaVA-1.6 (7B), Qwen2.5-VL (7B)。
  • 扩散模型:MMaDA (8B), LaViDa (7B)。

5. 实验结果

表 2:10 个 VQA 任务的性能对比。

数据集LLaVA-1.6Qwen2.5-VLMMaDALaViDa
OK-VQA73.158.142.061.1
DocVQA78.790.117.282.9
GQA60.747.451.167.0
所有 VQA 平均57.859.025.957.5
  • 总体表现:自回归模型一致优于扩散模型。LaViDa 的差距较小(约 2.5-4.4 点),而 MMaDA 在所有任务中均出现大幅下滑。
  • 域外泛化:尽管 LaViDa 在域内任务表现稍逊,但在某些域外(out-of-domain)任务中表现出更强的鲁棒性,甚至超过了 LLaVA-1.6。
  • 跨模态对齐缺陷:扩散模型在图像到文本检索任务中表现较差,反映了其图文对齐程度较低。

6. 分析

  • RQ1:微调数据量影响。所有模型的性能在少量数据下即迅速饱和。LLaVA-1.6 的数据效率最高。
  • RQ2:对齐可视化。通过 t-SNE 可视化发现,LaViDa 在微调早期图像和文本向量分布完全分离,即便在后期,其配对距离仍大于 LLaVA-1.6。

图 3:随着微调数据量的增加,不同模型的性能变化趋势。

图 4:MSCOCO_i2t 数据集上的查询-目标嵌入对 t-SNE 可视化。虚线连接对应的图文对,LaViDa 的对齐距离明显长于 LLaVA-1.6。

  • RQ3:视觉编码器微调。解冻 MMaDA 的视觉编码器并不能显著提升嵌入性能,表明主要限制在于大语言模型主干的表示能力。

7. 结论与局限性

本研究首次系统对比了扩散与自回归 VLMs 的多模态嵌入能力。虽然扩散模型拥有双向注意力优势,但目前在跨模态对齐和整体理解能力上仍落后于自回归模型。研究局限性包括由于资源限制未进行更大规模(百万级)的数据微调,以及未涵盖最新发布的 DiffusionVL 等新型模型。

Original Abstract:Embedding models are a fundamental component of modern AI systems such as semantic search and retrieval-augmented generation. Recent advances in large foundation models have substantially accelerated the development of embedding models, including those based on Large Language Models (LLMs), Vision Language Models (VLMs), and Multimodal LLMs. More recently, Large Diffusion Language Models (dLLMs) and Multimodal dLLMs have emerged as competitive alternatives to autoregressive models, offering advantages such as bidirectional attention and parallel generation. This progress naturally raises a critical yet unexplored question: can Multimodal dLLMs serve as effective multimodal embedding models? To answer this, we present the first systematic study of converting Multimodal dLLMs into embedding models. We evaluate state-of-the-art Multimodal dLLMs and Autoregressive VLMs across three categories of embedding tasks: classification, visual question answering, and information retrieval. Our results show that Multimodal dLLM embeddings generally underperform their autoregressive VLM counterparts. The stronger diffusion-based model, LaViDa, lags by only 3.5 points on classification, 2.5 points on VQA, and 4.4 points on retrieval tasks, whereas the other diffusion-based model, MMaDA, exhibits substantially larger performance gaps, exceeding 20 points across all tasks. Further analysis reveals insufficient image-text alignment in diffusion-based models, accounting for the observed limitations in their embedding performance.

PDF Link:2602.06056v1

部分平台可能图片显示异常,请以我的博客内容为准

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 11:32:28

P0926CP控制处理器模块

P0926CP 控制处理器模块简介: P0926CP 控制处理器模块是工业自动化控制系统中的关键核心部件,主要用于完成系统逻辑运算、数据处理以及控制指令的统一管理,在整个控制架构中起到中枢作用。P0926CP 控制处理器模块负责执行系统控制程序和顺序逻…

作者头像 李华
网站建设 2026/4/23 7:01:29

基于互信息和LSTM深度学习的负荷预测附Matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。 🍎 往期回顾关注个人主页:Matlab科研工作室 👇 关注我领取海量matlab电子书…

作者头像 李华
网站建设 2026/4/23 8:32:16

如何挑选合适的商业照明厂家:从企业实力到产品适配性

从事商业功能得以实现以及空间环境营造的基础的商业照明,它的品质直接对空间氛围、视觉舒适度、而且还会影响运营能耗,甚至会对顾客与员工的生理心理感受产生作用。正因如此,给商业项目甄选适宜的照明灯具以及背后的供应商,这是一…

作者头像 李华
网站建设 2026/4/23 8:33:54

2026最新!降AIGC工具 千笔·降AI率助手 VS 锐智 AI,继续教育首选

在AI技术迅猛发展的今天,越来越多的学生和研究者开始借助AI工具辅助论文写作,以提高效率、优化内容。然而,随着学术审查标准的不断提升,AI生成内容的痕迹越来越容易被检测出来,论文中的“AI率”问题逐渐成为影响毕业和…

作者头像 李华
网站建设 2026/4/23 8:34:50

Istio 流量治理实战:镜像、超时重试、熔断与限流,一次讲透

前言 本小节继续来描述istio对于流量的各种操作 流量镜像 对标nginx的mirror功能,复制一份流量到对应的地址去,通常用来做从线上环境引流至其他环境做测试或者分析 /* by 01130.hk - online tools website : 01130.hk/zh/allencrypt.html */ apiVersion:…

作者头像 李华