news 2026/4/23 11:40:15

清华最新力作:多模态RAG综述

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
清华最新力作:多模态RAG综述

来源:学姐带你玩AI 本文约2000字,建议阅读5分钟本文提出“多模态RAG”作为文档AI的新范式。

论文标题:Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding

论文地址:https://arxiv.org/pdf/2510.15253

创新点

  • 既往研究要么单独关注RAG(文本为主),要么聚焦多模态文档理解,但首次明确将两者结合,提出“多模态RAG”作为文档AI的新范式。

  • 提出直接用文档截图的图像嵌入(如ColPali、VisRAG)替代OCR文本,避免表格结构、图表视觉语义等关键信息的丢失。


方法


本文采用系统性文献综述方法,通过构建四维分类框架(领域开放度、检索模态、粒度层级、增强范式)对2024-2025年多模态RAG研究进行元分析:首先建立视觉原生检索理论,用文档图像嵌入替代OCR文本以保留图表结构语义;其次设计图文双路径协同机制,通过置信度加权融合与结果并集实现跨模态互补;进而提出从页级到元素级的分层检索体系,结合多模态知识图谱的节点-边关系建模与多智能体的查询分解-并行检索-一致性投票流程,形成图-智能体混合增强架构;最终构建跨文档长上下文基准与G-Acc/PNLS评估指标,在千页级金融报告和学术论文数据集上验证其相对于传统OCR方法的语义保真优势与长距离依赖建模能力。

多模态检索增强生成突破上下文限制的原理与研究增长趋势

本图通过对比揭示多模态RAG的核心价值:图a展示纯MLLM面对数百页PDF时因上下文窗口受限只能加载少量页面,导致关键证据遗漏和幻觉;图b显示引入多模态RAG后,系统先以视觉编码器把整份文档的每一页转成图像嵌入并建库,查询时快速召回最相关的Top-K页面再喂给模型,从而突破长度限制、减少幻觉并提升跨页推理能力;下方折线则定量印证这一趋势——2024年初几乎为零的“多模态RAG”论文到2025年已呈指数级增长,表明该范式正迅速成为文档理解的主流路径。

封闭域与开放域多模态RAG检索范围对比示意


本图用两幅示意图把多模态RAG的“封闭域”与“开放域”差异讲得很直观:图a封闭域场景下,系统只在一篇给定的长文档内部做“页级检索”,把和用户问题最相关的那几页抽出来交给模型,从而绕过上下文窗口限制、降低幻觉,适合“请对比本报告图3与图7的利润率”这类局部问题;图b开放域场景则把查询投向一个由海量多模态文档组成的外部知识库,跨文件召回最相关的页面或图表,再让模型生成答案,用来应对“哪家公司最早提出智能手机概念”这种需要跨文献汇总的知识型问题;两图共用同一套图文混合编码与相似度计算流程,只是检索范围由“单篇”扩展到“整个库”,直观揭示了“域”的宽窄如何决定证据来源的规模与回答策略。

图像单模态与图文双模态检索流程对比示意


本图通过两张流程图说明“仅图像”与“图像+文本”两种检索通道的互补关系:图a纯图像路径把整页文档当成一张图,直接经视觉编码器产出单一嵌入,查询时只算图文相似度,速度快且保留图表版式,但容易漏掉细小文字或脚注;图b图像加文本路径则同步抽取页面截图和OCR文本,分别生成视觉与语言两套嵌入,再按置信度加权或简单并集方式融合相似度,既保留视觉布局又弥补字符级细节,代价是计算量翻倍;两路最终都把Top-K页面送进生成器,由此直观展示“单模态效率”与“跨模态精度”之间的权衡。

实验


本表把当下多模态 RAG 研究所依赖的“数据土壤”一次性摊开:上半部分罗列了 DocVQA、InfoVQA、ChartQA、DUDE 等十余个经典基准,指出它们虽然覆盖文本、表格、图表、幻灯片等多元版式,但普遍停留在单图或单文档层面,查询规模与跨页推理深度有限;下半部分则汇总了 2024-2025 年专为多模态 RAG 定制的新基准,如 M3DocVQA、OpenDocVQA、ViDoSeek 等,这些新数据集把查询量放大到十万级,文档源横跨能源、金融、医学、政府文件,且刻意设计跨文档、多跳、数值推理型问题,从而逼模型在“大海捞图”后再“跨页拼答案”;整张表用“文档数-查询数-模态类型”三维指标直观呈现从“单图问答”到“跨库检索”的演进轨迹,提醒研究者旧基准已无法反映真实业务复杂度,必须转向更大规模、更细粒度、更多模关联的评估体系。

编辑:文婧

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/20 3:18:34

PKCE增强授权码流程:移动端安全获取DDColor访问令牌

PKCE增强授权码流程:移动端安全获取DDColor访问令牌 在移动应用频繁调用云端AI服务的今天,一个看似简单的“老照片上色”功能背后,可能隐藏着复杂的安全挑战。用户点击上传一张黑白旧照,几秒后便得到一幅色彩自然、细节丰富的彩色…

作者头像 李华
网站建设 2026/4/16 11:09:24

揭秘Azure OpenAI服务集成难题:如何在2025年前完成MCP合规部署?

第一章:2025 MCP合规背景与Azure OpenAI服务演进随着全球数据治理法规的持续收紧,2025年MCP(Multi-Cloud Policy)合规框架已成为跨国企业部署人工智能服务的核心准则。该框架强调跨云平台的数据主权、加密传输、访问审计与模型可解…

作者头像 李华
网站建设 2026/4/18 8:41:10

罗永浩“科技春晚”落幕,抖音精选创作者神奇阿宇、U航登台

12月30日,由“罗永浩的十字路口”团队与抖音精选联合举办的“2025年度科技创新分享大会”在上海落幕,这场被誉为“中国科技界春晚”的盛会,通过抖音精选App直播,超千万网友在线观看。大会上,罗永浩现场推介了抖音精选&…

作者头像 李华
网站建设 2026/4/14 5:10:30

JetMoE推理引擎终极对决:TensorRT与ONNX Runtime性能差距竟达60%

JetMoE推理引擎终极对决:TensorRT与ONNX Runtime性能差距竟达60% 【免费下载链接】JetMoE Reaching LLaMA2 Performance with 0.1M Dollars 项目地址: https://gitcode.com/GitHub_Trending/je/JetMoE 在AI模型部署的战场上,选择合适的推理引擎往…

作者头像 李华
网站建设 2026/4/18 0:44:29

万圣节搞怪模式:南瓜头图标+幽灵语音包上线

万圣节搞怪模式:南瓜头图标幽灵语音包上线 在大模型开发日益普及的今天,越来越多的研究者和工程师面临一个共同困境:明明只是想微调一个7B参数的语言模型,却要先花三天时间解决下载失败、显存溢出、分布式配置报错等一系列工程问题…

作者头像 李华