news 2026/4/23 14:46:27

在RAG中文档处理质量参差不齐的情况下——提升召回精度的企业级解决方案

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
在RAG中文档处理质量参差不齐的情况下——提升召回精度的企业级解决方案

RAG做起来很简单,但想把RAG做好就需要想尽办法去提升数据的召回质量。

在RAG中文档处理可以说是一个重难点,特别是复杂文档的处理更是一言难尽;因此,面对这种现实问题,总不能直接摆烂,因此怎么在文档质量处理参差不齐的情况下,提升RAG的召回精度就是一个需要解决的问题。

文档处理的质量直接影响到RAG的召回效率,但目前文档处理是一个难点;因此怎么基于现有条件,提升RAG的召回精度?既然文档处理质量控制不了,那么就只能想别的办法,尽量弥补文档质量的不足。

提升RAG召回精度

关于RAG中的文档处理,目前主流的方式还是以人工介入为主,比如说对文档格式进行转换(word,pdf,ppt等转换成markdown),对文档进行人工分段;设置文档拆分长度等等。

虽然说人工已经尽可能的考虑文档完整性的情况下,其处理效果还是差强人意;因此,面对这种问题其实最好的解决方式让大模型自己去给文档做拆分,注意这里说的是大模型,而不是小模型。

为什么这么说?

原因在于随着大模型技术的发展,大模型的能力也变得越来越强,因此在某些情况下人工做的并一定比模型做的好,特别是这种对文档进行处理的场景,模型根据语义对文档进行拆分或处理,或许比人工做的要更好。

人工在对文档处理的情况下,一般是按照标题,段落或长度对文档进行拆分;而如果把文档直接丢给模型,让模型根据自己的理解对文档进行拆分,或许能更好地保证文档的语义完整性;而这种情况下,大模型的表现肯定会比小模型要好,这也是为什么在前面强调说是大模型,而不是小模型的原因。

当然,毕竟模型的上下文窗口有限,而且大模型对长文本处理存的效果并不是特别好;因此,面对较长的文档,还是需要人工进行初步的处理,才能交给模型去拆分。

OK,前面说了文档的一种处理方式,那么下面我们进入正题,怎么在文档质量参差不齐的情况下,来提升召回精度?

其实这个问题说简单也简单,说复杂也复杂;说简单是因为我们的目的很明确,那就是提升模型的召回精度;复杂是怎么提升这个召回精度?

下面我们就来介绍几种提升召回精度的方式:

  1. 同时使用稠密向量和稀疏向量

  2. 对分段的文档进行关键字提取

  3. 对分段文档进行总结提炼

  4. 同时使用标量检索和向量检索

同时使用稠密向量和稀疏向量

这种方式是基于向量数据库本身的一种特性,部分向量数据库比如说milvus支持稠密向量和稀疏向量,简单来说就是对分段内容进行两次向量化,一次是稠密向量,一次是稀疏向量。

在milvus向量数据库的官方文档中介绍,密集向量是捕捉语义关系的绝佳方法,而稀疏向量则是精确匹配关键词的高效方法。

因此,同时使用稠密向量和稀疏向量,能够从更多的维度对数据进行召回,当然也能够提升文档的召回质量。

对分段的文档进行关键字或主要内容提取

既然文档处理的质量参差不齐,并且用户问题可能比较简短的情况下,这时很难进行语义检索,甚至很多时候根据检索不到数据。

因此,在文档入库之前,我们可以使用模型先对已分段文档进行关键字提取,这样把提取的关键字作为标签,因此就可以在检索时就可以进行关键字匹配,当然也可以把标签向量化,进行标签语义匹配;这样在用户提问时,也对用户问题进行同样的操作,这样就可以使用更准确的关键字进行数据召回,提升召回质量。

对分段文档进行总结提炼

既然文档处理质量不齐,而且即使文档处理质量还行,但由于用户的问题较简短;那么我们就对文档内容进行总结提炼,然后再对总结之后的内容进行向量化,之后进行语义检索;这样也可以提升数据的召回质量。

同时使用标量检索和向量检索

在向量数据库中,一般情况下把文档内容进行向量化,但同时文档也存在一些元数据,这个元数据可以是文档本身的(文档名称,简要说明等),也可以是我们人为提取的(关键字标签)。

这时我们在检索时,就可以先根据这些元数据进行初步筛选,然后再进行语义筛选;这时通过多种召回方式的配合,就能更好地对数据进行召回。

当然,上面介绍的都是文档的召回策略问题;而且上面的几种召回策略并不是非此即彼的,很多时候可以多种联合使用;因此,通过以上召回策略召回数据之后,我们需要对召回的数据进行统一的处理,比如说去重,排序,重排序等多种操作,最后才是我们需要的数据。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》下方扫码获取~

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

以上资料如何领取?

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

以上全套大模型资料如何领取?

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 12:32:32

电池制造中如何实现智能化转型?

在新能源产业高速发展的背景下,电池制造正经历一场由智能化驱动的深刻变革。作为新能源汽车与储能系统的核心部件,动力电池的生产过程复杂精密,涵盖极片制备、电芯组装、注液化成到系统集成等多个环节,每一个工序的微小偏差都可能…

作者头像 李华
网站建设 2026/4/23 12:32:09

postgresql使用uuid作为主键

INSERT INTO tb_charger_heartbeat (id, charger_id, gun_no, gun_status, create_time) VALUES (gen_random_uuid(), chargerCode, gunNo, gunStatus, now());gen_random_uuid() 需要扩展:CREATE EXTENSION IF NOT EXISTS pgcrypto;

作者头像 李华
网站建设 2026/4/22 14:53:13

Docker Network网络模式:Miniconda-Python3.9镜像容器通信配置

Docker Network网络模式:Miniconda-Python3.9镜像容器通信配置 在现代AI与数据科学项目中,一个常见的尴尬场景是:“代码在我本地能跑,为什么到了同事机器上就报错?”——往往根源在于Python版本不一致、依赖包冲突&…

作者头像 李华
网站建设 2026/4/23 8:36:55

最新!2026年3月PMP报名时间出来啦!

注意!中国国际人才交流基金会官方网站的登录报名网站页面更新了2026年3月PMP项目管理考试的报名时间。 一、考试时间:2026年3月14日 二、报名时间 为减少同一时间集中报名造成的网络拥堵,本次报名将采取以下形式分地区、分批次开放报名。 第一…

作者头像 李华
网站建设 2026/4/23 2:51:35

Elastic 即代码:自动化的不只是基础设施

作者:来自 Elastic kylerozanitis Elastic 即代码:自动化不只是基础设施 Terraform 是工程师常用的工具,用来通过一种叫 Infrastructure as Code( IaC )的模式创建、修改和删除基础设施。它通常用于管理云资源&#…

作者头像 李华
网站建设 2026/4/23 8:32:39

两个月能成为网安高手?关键在于做好这三个阶段的针对性训练

各阶段核心任务与具体行动清单 为确保你清晰地知道每周“具体做什么”,以下是路线图中各阶段的详细拆解: 第一阶段:基础准备(第1-2周) 核心任务:搭建学习环境,理解网络运行基本规则。具体行动…

作者头像 李华