清华最新力作：多模态RAG综述-深圳市維司達科技有限公司

来源：学姐带你玩AI 本文约2000字，建议阅读5分钟本文提出“多模态RAG”作为文档AI的新范式。

论文标题：Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding

论文地址：https://arxiv.org/pdf/2510.15253

创新点

既往研究要么单独关注RAG（文本为主），要么聚焦多模态文档理解，但首次明确将两者结合，提出“多模态RAG”作为文档AI的新范式。
提出直接用文档截图的图像嵌入（如ColPali、VisRAG）替代OCR文本，避免表格结构、图表视觉语义等关键信息的丢失。

方法

本文采用系统性文献综述方法，通过构建四维分类框架（领域开放度、检索模态、粒度层级、增强范式）对2024-2025年多模态RAG研究进行元分析：首先建立视觉原生检索理论，用文档图像嵌入替代OCR文本以保留图表结构语义；其次设计图文双路径协同机制，通过置信度加权融合与结果并集实现跨模态互补；进而提出从页级到元素级的分层检索体系，结合多模态知识图谱的节点-边关系建模与多智能体的查询分解-并行检索-一致性投票流程，形成图-智能体混合增强架构；最终构建跨文档长上下文基准与G-Acc/PNLS评估指标，在千页级金融报告和学术论文数据集上验证其相对于传统OCR方法的语义保真优势与长距离依赖建模能力。

多模态检索增强生成突破上下文限制的原理与研究增长趋势

本图通过对比揭示多模态RAG的核心价值：图a展示纯MLLM面对数百页PDF时因上下文窗口受限只能加载少量页面，导致关键证据遗漏和幻觉；图b显示引入多模态RAG后，系统先以视觉编码器把整份文档的每一页转成图像嵌入并建库，查询时快速召回最相关的Top-K页面再喂给模型，从而突破长度限制、减少幻觉并提升跨页推理能力；下方折线则定量印证这一趋势——2024年初几乎为零的“多模态RAG”论文到2025年已呈指数级增长，表明该范式正迅速成为文档理解的主流路径。

封闭域与开放域多模态RAG检索范围对比示意

本图用两幅示意图把多模态RAG的“封闭域”与“开放域”差异讲得很直观：图a封闭域场景下，系统只在一篇给定的长文档内部做“页级检索”，把和用户问题最相关的那几页抽出来交给模型，从而绕过上下文窗口限制、降低幻觉，适合“请对比本报告图3与图7的利润率”这类局部问题；图b开放域场景则把查询投向一个由海量多模态文档组成的外部知识库，跨文件召回最相关的页面或图表，再让模型生成答案，用来应对“哪家公司最早提出智能手机概念”这种需要跨文献汇总的知识型问题；两图共用同一套图文混合编码与相似度计算流程，只是检索范围由“单篇”扩展到“整个库”，直观揭示了“域”的宽窄如何决定证据来源的规模与回答策略。

图像单模态与图文双模态检索流程对比示意

本图通过两张流程图说明“仅图像”与“图像+文本”两种检索通道的互补关系：图a纯图像路径把整页文档当成一张图，直接经视觉编码器产出单一嵌入，查询时只算图文相似度，速度快且保留图表版式，但容易漏掉细小文字或脚注；图b图像加文本路径则同步抽取页面截图和OCR文本，分别生成视觉与语言两套嵌入，再按置信度加权或简单并集方式融合相似度，既保留视觉布局又弥补字符级细节，代价是计算量翻倍；两路最终都把Top-K页面送进生成器，由此直观展示“单模态效率”与“跨模态精度”之间的权衡。

实验

本表把当下多模态 RAG 研究所依赖的“数据土壤”一次性摊开：上半部分罗列了 DocVQA、InfoVQA、ChartQA、DUDE 等十余个经典基准，指出它们虽然覆盖文本、表格、图表、幻灯片等多元版式，但普遍停留在单图或单文档层面，查询规模与跨页推理深度有限；下半部分则汇总了 2024-2025 年专为多模态 RAG 定制的新基准，如 M3DocVQA、OpenDocVQA、ViDoSeek 等，这些新数据集把查询量放大到十万级，文档源横跨能源、金融、医学、政府文件，且刻意设计跨文档、多跳、数值推理型问题，从而逼模型在“大海捞图”后再“跨页拼答案”；整张表用“文档数-查询数-模态类型”三维指标直观呈现从“单图问答”到“跨库检索”的演进轨迹，提醒研究者旧基准已无法反映真实业务复杂度，必须转向更大规模、更细粒度、更多模关联的评估体系。

编辑：文婧

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU