news 2026/4/23 10:14:00

Elasticsearch向量搜索介绍

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Elasticsearch向量搜索介绍

你有没有过这种经历?

你想买一双“跑步穿的轻便鞋子”,你在电商搜索框输入“透气跑鞋”。
结果出来的全是“耐克”、“阿迪达斯”这些品牌名,或者标题里只带了“透气”两个字但其实是皮鞋的商品。

这是因为传统的数据库搜索就像个死板的图书管理员:它只认识字面意思。你搜“苹果”,它绝不会给你“iPhone”,除非你明确告诉它“苹果=iPhone”。

但现在,AI 时代来了,我们希望搜索能像人类一样思考:你搜“苹果”,它不仅给你水果,还能给你手机,甚至给你《白雪公主》的毒苹果。

这就是向量搜索(Vector Search)。今天,我们就用最简单的例子,看看 Elasticsearch 是怎么做到的。


第一部分:把文字变成“坐标”

计算机看不懂文字,只看得懂数字。要让计算机理解“语义”,第一步是把文字变成一串数字,这串数字叫向量(Vector)

想象一下二维坐标系(X轴,Y轴):

  • 国王” 的坐标可能是[0.9, 0.1]
  • 王后” 的坐标可能是[0.8, 0.3]
  • 苹果” 的坐标可能是[0.1, 0.9]

在这个地图上,“国王”和“王后”离得很近(都是皇室成员),而“苹果”离它们很远。

现实情况: 现在的 AI 模型(如 BERT、OpenAI Embeddings)会把文字变成768维甚至更高维的向量。虽然人类无法想象768维空间,但原理一样:意思越像的词,在这个多维空间里距离越近。

第二部分:向量搜索是怎么工作的?

当你把数据存入 Elasticsearch 时,不仅要存文字,还要存它对应的向量(那一长串数字)。

场景: 你要找“一种红色的水果”。

  1. 向量化: ES 先把你的搜索词“一种红色的水果”也转换成向量,假设是[0.2, 0.8]
  2. 找邻居: ES 拿着这个坐标,去数据库里找离它物理距离最近的向量。
  3. 返回结果
    • 向量[0.1, 0.9](苹果) -> 距离 0.14(很近!)
    • 向量[0.3, 0.7](草莓) -> 距离 0.14(很近!)
    • 向量[0.9, 0.1](西红柿[1]) -> 距离 0.9(有点远)
    • 向量[0.8, 0.2](胡萝卜) -> 距离 1.0(太远了,不要)

结果: 哪怕你没提“苹果”这两个字,只要你描述了它的特征,ES 也能把它找出来!这就是语义搜索


第三部分:实战!3 分钟用 ES 跑通向量搜索

别被“高维数学”吓到了,在 Elasticsearch 8.x/9.x 里,操作简单得像写 SQL。

1. 准备工作:创建一个带向量的索引

我们要建一个存放“文档”的仓库,并告诉 ES:“这里的text_embedding字段是向量,有 3 个维度(为了演示简单,实际通常是 768+)”。

PUT/my_blog_index{"mappings":{"properties":{"title":{"type":"text"},"text_embedding":{"type":"dense_vector","dims":3,"index":true,"similarity":"cosine"}}}}

解释:dense_vector就是告诉 ES 这是个向量字段;similarity定义了怎么算距离(余弦相似度是最常用的)。

2. 插入数据(模拟 AI 已经帮我们转好了向量)

假设 AI 模型已经把我们的文章标题变成了向量:

POST/my_blog_index/_bulk{"index":{"_id":1}}{"title":"如何做番茄炒蛋","text_embedding":[0.1,0.5,0.8]}{"index":{"_id":2}}{"title":"苹果手机最新评测","text_embedding":[0.2,0.6,0.7]}{"index":{"_id":3}}{"title":"红烧肉的做法","text_embedding":[0.9,0.1,0.2]}
3. 搜索:我想找“水果相关的食谱”

我脑海里想的是“水果”,AI 把“水果”转换成了向量[0.15, 0.55, 0.75]

执行搜索(KNN - K Nearest Neighbors):

GET/my_blog_index/_search{"knn":{"field":"text_embedding","query_vector":[0.15,0.55,0.75],"k":2,"num_candidates":100},"_source":["title"]}

预测结果
ES 会计算距离,发现[0.1, 0.5, 0.8](番茄炒蛋)和[0.2, 0.6, 0.7](苹果评测)离我的查询向量最近。
虽然“番茄炒蛋”里没有“水果”二字,但在向量空间里,它和“水果”的语义更接近(比如都含有维生素、植物等潜在语义),所以它会排在“红烧肉”前面。


第四部分:ES 向量搜索的“杀手锏”

你可能会问:“我为什么要用 ES?专门的向量数据库不是更强吗?”

Elasticsearch 的最大优势在于:它是“混合”的王者。

  1. Hybrid Search(混合搜索)
    有时候你需要既精确又模糊。比如搜“红色的 iPhone 15 手机壳”。

    • 传统搜索(BM25):确保结果里必须有“iPhone 15”这个词(精确)。
    • 向量搜索(KNN):确保结果里包含“好看的”、“防摔的”等语义(模糊)。
    • ES 可以用RRF (Reciprocal Rank Fusion)算法把两者分数一综合,给你最完美的结果。
  2. 元数据过滤(Pre/Post Filtering)
    “给我找2023年以后发布的、价格低于50元的、语义上像‘运动鞋’的商品。”
    在向量搜索的同时,直接加上price < 50date > 2023的过滤条件,效率极高。

  3. 生态完善
    你不需要维护两套系统(一套存业务数据,一套存向量)。ES 全搞定,而且还能顺便做日志分析、全网搜索。

总结

Elasticsearch 的向量搜索并不是什么黑魔法,它就是:

  1. Embedding:用 AI 模型把字变成数字坐标。
  2. Indexing:把坐标存进专门的数据结构(HNSW 图)里加速查找。
  3. Searching:算出“你的问题”和“库存数据”在数学上的距离。

如果你还在用LIKE %...%做搜索,或者被精确匹配折磨得头秃,赶紧试试 ES 的向量搜索吧。让你的搜索框,真正读懂用户的心。


注:[1] 在植物学上,西红柿确实是水果,但在菜市场它是蔬菜。这正好体现了传统搜索的尴尬和向量搜索的灵活性——取决于你的训练数据!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 10:13:45

国外研究文献网站使用指南:高效检索与获取学术资源的实用方法

生成式人工智能的浪潮正引发各领域的颠覆性变革&#xff0c;在学术研究这一知识生产的前沿阵地&#xff0c;其影响尤为显著。文献检索作为科研工作的基石&#xff0c;在AI技术的赋能下各大学术数据库已实现智能化升级。小编特别策划"AI科研导航"系列专题&#xff0c;…

作者头像 李华
网站建设 2026/4/23 10:12:32

【AI自动化新纪元】:智谱Open-AutoGLM GitHub源码解读与实战应用

第一章&#xff1a;智谱Open-AutoGLM项目概述智谱AI推出的Open-AutoGLM是一个面向自动化文本生成任务的开源框架&#xff0c;旨在降低大模型应用开发门槛&#xff0c;提升从数据准备到模型部署的全流程效率。该框架基于GLM系列大语言模型构建&#xff0c;支持自然语言理解、文本…

作者头像 李华
网站建设 2026/4/15 17:14:46

收藏!程序员转行大模型实战指南:用现有技术栈快速破局

大模型技术的迅猛发展&#xff0c;不仅颠覆了传统技术服务模式&#xff0c;更给程序员群体开辟了全新的职业赛道。如今&#xff0c;无论是深耕多年的后端老兵、寻求突破的前端开发者&#xff0c;还是专注数据领域的工程师&#xff0c;都在思考如何借助大模型浪潮实现职业进阶&a…

作者头像 李华