本文以通俗易懂的方式讲解了RAG系统中三个核心检索质量指标:Recall@K、MRR和NDCG。Recall@K关注正确结果是否出现在前K条中,MRR关注第一个正确结果的排名,NDCG则综合评估多个相关结果的排序质量及相关性。文章通过实例和图示对比了三者区别,并给出在RAG项目中如何结合使用这些指标的建议,帮助读者全面掌握检索评估方法。
在RAG(检索增强生成)系统中,检索质量直接决定了大模型回答准不准。今天我用最接地气的方式,聊聊三个核心指标:Recall@K、MRR 和 NDCG。
别被名字吓到!一句话总结:
Recall@K 看“找没找到”,
MRR 和 NDCG 看“排得好不好”。
下面用例子、图示和对比,帮你一次性搞懂!
1. Recall@K 是什么?(最直观的“有没有”)
用户问一个问题,系统去知识库检索,返回前 K 条结果。
Recall@K 关心的只有一件事:正确答案有没有出现在这前 K 条里?
举个例子:
正确文档是Doc B。
系统返回的前 5 条结果是:
- Doc X
- Doc A
- Doc B(正确!)
- Doc Y
- Doc Z
计算结果:
- • Recall@1 = 0
- • Recall@2 = 0
- • Recall@3 =1
- • Recall@5 =1
它回答的问题就是:“检索器有没有把有用资料捞上来?”
超级适合评估向量检索、BM25、Hybrid retrieval 的召回能力。
缺点也很明显:它完全不在乎顺序!即使正确文档排在第 3 位,Recall@3 依然是 1,但用户体验差多了。
2. MRR 是什么?(看“第一个正确答案来得有多早”)
MRR = Mean Reciprocal Rank(平均倒数排名)。
它只盯着第一个正确结果排在第几名,越靠前得分越高。
直觉公式(不用背,懂意思就行):
- • 第 1 名命中 → 得分1
- • 第 2 名 →0.5
- • 第 3 名 →≈0.333
- • 第 10 名 →0.1
下面这张图用真实 Query 示例,清晰展示了不同排名的得分和 MRR 计算过程:
适合场景:FAQ 系统、找唯一正确文档、找最佳答案页。
局限:如果一个问题有多个相关文档,MRR 只看“第一个”,忽略了后面的。
3. NDCG 是什么?(最全面的“整体排序质量”)
NDCG = Normalized Discounted Cumulative Gain(归一化折扣累积增益)。
它同时考虑三点:
- 相关结果有没有出现
- 排得靠不靠前(越靠后越打折)
- 区分“有多相关”(非常相关比一般相关更值钱)
经典好坏排序对比(这张图完美展示了“理想排序 vs 实际排序”的视觉差异):
为什么要 Normalized?把当前得分除以“理想最优排序”的得分,最后落在 0~1 之间:1 = 完美排序,越接近 1 越好。
4. 三者最核心区别(公式直观对比)
- •Recall@K:前 K 个里有没有覆盖正确结果?(只看“找没找到”)
- •MRR:第一个正确结果来得早不早?(只关心第一个)
- •NDCG:多个相关结果整体排得好不好?还能区分“有多相关”(最全面)
下面这张图直接并列 MRR 和 NDCG 的公式,一眼看懂区别:
5. 用一个统一例子再对比
假设一个问题有 3 个相关文档:
- • Doc A:非常相关
- • Doc B:一般相关
- • Doc C:稍微相关
优秀排序:Doc A → Doc B → 噪声 → Doc C → 噪声
→ Recall@5=1,MRR=1,NDCG很高
糟糕排序:噪声 → Doc C → 噪声 → Doc B → Doc A
→ Recall@5=1,但 MRR=0.5,NDCG明显更低
这就说明:Recall@K 高,不代表排序好!
6. 在 RAG 项目里怎么用它们?
- •Recall@K→ 评估召回器(向量检索、BM25、Hybrid)
- •MRR→ 看用户能不能很快拿到正确证据
- •NDCG→ 评估排序器 / reranker(最推荐,尤其多个 chunk 时)
7. 工程实战小建议
千万别只看一个指标!
推荐至少一起看:Recall@K(有没有漏) + MRR 或 NDCG(排得够不够好)。
常见坑:Recall@10 很高,但 MRR 很低 → 说明“能找到,但总排不靠前”。这时问题通常出在排序、query rewrite 或 chunk 太噪上。
8. 一句话快速记忆
- •Recall@K:找到了没有?
- •MRR:第一个正确答案来得早不早?
- •NDCG:整体排序好不好?高价值结果是否排前面?
说真的,这两年看着身边一个个搞Java、C++、前端、数据、架构的开始卷大模型,挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis,稳稳当当过日子。
结果GPT、DeepSeek火了之后,整条线上的人都开始有点慌了,大家都在想:“我是不是要学大模型,不然这饭碗还能保多久?”
我先给出最直接的答案:一定要把现有的技术和大模型结合起来,而不是抛弃你们现有技术!掌握AI能力的Java工程师比纯Java岗要吃香的多。
即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地!大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇!
这绝非空谈。数据说话
2025年的最后一个月,脉脉高聘发布了《2025年度人才迁徙报告》,披露了2025年前10个月的招聘市场现状。
AI领域的人才需求呈现出极为迫切的“井喷”态势
2025年前10个月,新发AI岗位量同比增长543%,9月单月同比增幅超11倍。同时,在薪资方面,AI领域也显著领先。其中,月薪排名前20的高薪岗位平均月薪均超过6万元,而这些席位大部分被AI研发岗占据。
与此相对应,市场为AI人才支付了显著的溢价:算法工程师中,专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%;产品经理岗位中,AI方向的产品经理薪资也领先约20%。
当你意识到“技术+AI”是个人突围的最佳路径时,整个就业市场的数据也印证了同一个事实:AI大模型正成为高薪机会的最大源头。
最后
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。
我整理出这套 AI 大模型突围资料包【允许白嫖】:
- ✅从入门到精通的全套视频教程
- ✅AI大模型学习路线图(0基础到项目实战仅需90天)
- ✅大模型书籍与技术文档PDF
- ✅各大厂大模型面试题目详解
- ✅640套AI大模型报告合集
- ✅大模型入门实战训练
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
①从入门到精通的全套视频教程
包含提示词工程、RAG、Agent等技术点
② AI大模型学习路线图(0基础到项目实战仅需90天)
全过程AI大模型学习路线
③学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的
④各大厂大模型面试题目详解
⑤640套AI大模型报告合集
⑥大模型入门实战训练
👉获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓