纯向量检索用 Embedding 模型,用户问「振动异常」,知识库写「振动超标」——搜不到。混合检索就是答案。
单一检索的局限
上篇我搭好了 RAG 管道:文本分块 → Embedding → Milvus → 检索。跑 10 条测试查询,纯向量检索的命中率约 60%。
60% 的意思是:10 个问题中有 4 个搜不到正确答案。
为什么搜不到?
用户问:「传送带跑偏了怎么调?」
知识库写:「传送带跑偏调整方法:1)调节张紧装置…」
Embedding 模型觉得这两句话不太像 → 向量距离远 → 检索失败。
Embedding 模型理解「语义」,但它不完全懂中文口语和专业术语的细微差异。这是所有 Embedding 的共性问题——尤其在使用多语言通用模型时。
方案:向量 + 关键词双路召回
Dense(向量检索)擅长语义匹配——「温度高」能匹配「发热异常」。
Sparse(关键词检索)擅长精确匹配——「传送带」必须命中「传送带」。
两者互补。这就是混合检索(Hybrid Search)。
步骤 1:加 BM25 稀疏检索
BM25 是经典的 TF-IDF 变体,核心逻辑是「词在少数文档中出现频率高 = 该文档和这个词相关」。
我在Bm25Retriever中实现了一个简化版:
Bm25Retriever bm25 = new Bm25Retriever(); bm25.index(documents); // 用户问 "传送带跑偏" List<ScoredDoc> results = bm25.search("传送带跑偏怎么调", 10); // → 能精确匹配到包含「传送带」和「调」的文档步骤 2:RRF 融合
两路检索结果怎么合并?我用了RRF(Reciprocal Rank Fusion)——一种简单但有效的融合算法:
RRF_score(d) = sum over rankings: 1 / (k + rank(d))
k = 60(经典取值)
每个文档在两个排行榜中的排名越靠前,RRF 分数越高。
RrfFusion fusion = new RrfFusion(); List<String> fused = fusion.fuse(denseResults, sparseResults, 5);步骤 3:LLM 重排序
拿到融合后的 Top-5 候选,再用 LLM 精排——这是最后一公里。虽然这次编码里没上专门的 Cross-Encoder,但原理一样:候选文档 + 用户问题 → LLM 判断相关性 → 选 Top-3。
实验数据:三种策略对比
我在 10 条测试查询上跑了三种策略:
| 策略 | 命中率 | MRR |
|---|---|---|
| Dense Only(纯向量) | ~60% | 0.42 |
| BM25 Only(纯关键词) | ~70% | 0.48 |
| RRF Fused(混合检索) | ~90% | 0.68 |
Dense Only 输在哪?「传感器信号漂移」这条,Embedding 模型没理解「漂移」=「零点漂移」,搜到了不相关的电气故障文档。
BM25 Only 输在哪?「CNC 主轴异响」这条,知识库里写的是「CNC主轴异响」,BM25 对「异响」和「异常噪音」这种同义词完全没辙。
RRF Fused 为什么赢?两种检索互补——向量错了的,关键词能兜底;关键词漏了的,向量能补上。
代码:在 Agent 中启用混合检索
我把整个混合检索管线封装成了带评估的端到端实验:
# 1. 摄入知识库 curl -X POST http://localhost:8080/api/rag/ingest/500 # 2. 运行评估(Dense vs BM25 vs Fused) curl -X POST http://localhost:8080/api/rag/evaluate # 返回: # { # "DENSE_hitRate": "60.0%", "DENSE_MRR": "0.420", # "BM25_hitRate": "70.0%", "BM25_MRR": "0.480", # "FUSED_hitRate": "90.0%", "FUSED_MRR": "0.680" # }什么时候需要混合检索?
| 场景 | 推荐策略 |
|---|---|
| 知识库 < 100 条,查询单一 | 纯 Dense 就够了 |
| 包含专业术语/编号(如 CNC-001) | 加 BM25 |
| 用户用口语提问 | 加 BM25+ Query Rewriting |
| 多语言混用 | 纯 Dense(BM25 分语言要调分词器) |
判断标准很简单:跑 10 条测试查询看命中率。如果 Dense Only 低于 70%,加 BM25。加了之后还低于 80%,加 Query Rewriting。
一句话总结
向量检索懂语义但不懂关键词,BM25 懂关键词但不懂语义。RRF 融合让两个互相兜底,90% 命中率是混合检索的基本盘。剩下的 10%,靠 Query Rewriting 和更精准的分块。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~