GTE模型与LangChain集成：构建智能问答知识库-深圳市維司達科技有限公司

GTE模型与LangChain集成：构建智能问答知识库

1. 引言

想象一下，你是一家公司的技术支持负责人，每天要面对成百上千份产品手册、技术文档和客户咨询记录。当有员工或客户提出一个具体问题时，你需要在海量文档里翻找答案，这个过程既耗时又容易出错。或者，你是一个内容创作者，手头积累了大量的文章、笔记和资料，想要快速找到某个特定主题的相关内容，却总是被淹没在信息的海洋里。

这正是许多企业和个人在知识管理上遇到的真实困境。文档越来越多，但找到有用信息却越来越难。传统的全文搜索只能匹配关键词，无法理解问题的真正含义。比如，你搜索“系统卡顿怎么办”，它可能找不到那些写着“响应缓慢的解决方案”的文档。

现在，有了大语言模型和智能检索技术，我们可以让机器真正“理解”文档内容，并像专家一样回答问题。今天要聊的，就是把阿里的GTE文本向量模型和流行的LangChain框架结合起来，搭建一个属于自己的智能问答知识库。你不用再手动翻文档，只需要用自然语言提问，系统就能从你的知识库中精准找到答案，并用通顺的语言组织回复。

听起来是不是很实用？接下来，我就带你一步步实现它。

2. 为什么选择GTE和LangChain？

在开始动手之前，你可能会有疑问：市面上文本向量模型那么多，为什么选GTE？框架也不少，为什么用LangChain？这里简单说说我的考虑。

GTE是阿里巴巴达摩院推出的通用文本嵌入模型。我选择它，主要是看中它在中文场景下的扎实表现和几个很实在的优点。首先，它对中文的理解和生成效果很好，这在处理中文文档时至关重要。其次，最新的GTE多语言版本支持长达8192个token的输入，这意味着你可以处理很长的技术文档或报告，而不用担心被截断。另外，它还能灵活输出不同维度的向量，比如你可以在存储空间和检索精度之间做权衡，选128维省空间，或者768维求精准。

至于LangChain，它更像是一个“乐高积木”工具箱。它把构建大模型应用时那些繁琐的步骤——比如加载文档、分割文本、检索向量、组织回答——都封装成了简单的模块。你不用从零开始写每一行代码，而是用这些现成的“积木”快速搭出你想要的应用。对于想快速验证想法、搭建原型的团队来说，这能节省大量时间。

把GTE的“理解能力”和LangChain的“组装能力”结合，我们就能用相对清晰的代码，构建一个功能完整、效果不错的智能问答系统。

3. 搭建你的智能问答系统

理论说再多，不如动手做一遍。下面我们就来一步步搭建这个系统。你需要准备一个Python环境（建议3.8以上），以及一些基础的NLP和机器学习库。

3.1 第一步：准备环境与安装依赖

首先，我们把需要的“工具”安装好。打开你的终端或命令行，执行下面的命令：

# 安装核心框架 pip install langchain langchain-community # 安装GTE模型所需的transformers库 pip install transformers # 安装向量数据库（这里以Chroma为例，它轻量易用） pip install chromadb # 安装文档加载器（用于处理txt、pdf等格式） pip install pypdf python-docx # 可选：安装jupyter notebook，方便交互式开发 pip install jupyter

安装过程可能会花点时间，取决于你的网络。如果遇到某个包安装慢，可以考虑使用国内的镜像源。

3.2 第二步：加载并处理你的知识文档

系统的大脑是模型，而系统的记忆就是你的知识文档。我们需要把这些文档“喂”给系统。假设你的文档放在一个叫knowledge_base的文件夹里，里面有各种格式的文件。

import os from langchain_community.document_loaders import DirectoryLoader, TextLoader, PyPDFLoader from langchain.text_splitter import RecursiveCharacterTextSplitter # 1. 指定你的知识库文件夹路径 documents_path = "./knowledge_base" # 2. 使用DirectoryLoader自动加载文件夹内所有支持格式的文件 # 这里我们指定加载.txt和.pdf文件 loader = DirectoryLoader( documents_path, glob="**/*.txt", # 匹配所有txt文件 loader_cls=TextLoader, show_progress=True ) # 如果你还有PDF文件，可以再加载一次 pdf_loader = DirectoryLoader( documents_path, glob="**/*.pdf", loader_cls=PyPDFLoader, show_progress=True ) raw_documents = loader.load() raw_documents.extend(pdf_loader.load()) print(f"成功加载了 {len(raw_documents)} 个文档片段。") # 3. 分割文档 # 直接加载的文档可能很长，我们需要把它们切成适合模型处理的小块。 # RecursiveCharacterTextSplitter会尝试按段落、句子等自然边界分割，尽量保持语义完整。 text_splitter = RecursiveCharacterTextSplitter( chunk_size=500, # 每个块大约500个字符 chunk_overlap=50, # 块与块之间重叠50字符，避免上下文断裂 separators=["\n\n", "\n", "。", "！", "？", "；", "，", " ", ""] # 分割符优先级 ) documents = text_splitter.split_documents(raw_documents) print(f"分割后得到 {len(documents)} 个文本块。")

这段代码做了三件事：找到你的文档、读取内容、然后把长文档切成小块。chunk_size和chunk_overlap是两个关键参数。块太大，模型可能抓不住重点；块太小，信息可能不完整。500字符左右是个不错的起点，你可以根据自己文档的特点调整。

3.3 第三步：用GTE模型为文档生成向量

文本块准备好了，接下来要把它们转换成计算机能理解的“向量”。这一步就是让GTE模型大显身手的时候。

from langchain.embeddings import HuggingFaceEmbeddings import torch # 指定GTE模型。这里我们使用中文base版，它在效果和速度之间取得了不错的平衡。 # 如果你需要处理长文档，可以考虑`Alibaba-NLP/gte-multilingual-base`。 model_name = "Alibaba-NLP/gte-base-zh" # 初始化嵌入模型 # 设置device为cuda如果有GPU，可以大幅加速 device = "cuda" if torch.cuda.is_available() else "cpu" print(f"使用设备: {device}") embeddings = HuggingFaceEmbeddings( model_name=model_name, model_kwargs={'device': device}, encode_kwargs={'normalize_embeddings': True} # 对向量进行归一化，方便后续计算余弦相似度 ) # 测试一下嵌入模型是否工作正常 test_text = "什么是人工智能？" test_vector = embeddings.embed_query(test_text) print(f"测试文本的向量维度: {len(test_vector)}")

这里我们用了LangChain封装的HuggingFaceEmbeddings来调用GTE模型。normalize_embeddings=True很重要，它会把向量长度归一化到1，这样后续用余弦相似度计算相关性更准确。第一次运行时会下载模型，可能需要一些时间。

3.4 第四步：构建向量数据库并存储

生成向量后，我们需要一个地方把它们存起来，并且要能快速检索。这就是向量数据库的作用。我们选择Chroma，因为它简单易用，适合本地开发和中小规模知识库。

from langchain.vectorstores import Chroma # 指定向量数据库的持久化目录 persist_directory = "./chroma_db" # 创建（或加载）向量数据库 # 将文档内容、对应的向量以及元数据（如来源）存储起来 vectordb = Chroma.from_documents( documents=documents, embedding=embeddings, persist_directory=persist_directory ) # 将数据库持久化到磁盘，这样下次就不用重新生成了 vectordb.persist() print(f"向量数据库已创建并保存到: {persist_directory}") print(f"数据库中存储了 {vectordb._collection.count()} 个向量。")

这个过程可能会花点时间，因为要为每一个文本块生成向量。完成后，你会在当前目录下看到一个chroma_db文件夹，里面就是存储好的向量数据。以后重启程序，可以直接加载这个数据库，无需重新处理文档。

3.5 第五步：连接大语言模型并创建问答链

向量数据库是我们的“记忆库”，而大语言模型（LLM）是“思考与表达中枢”。我们需要一个LLM来根据检索到的文档片段组织成通顺的回答。这里为了演示方便，我们使用一个开源的、可以在本地运行的模型（例如ChatGLM3、Qwen等），你也可以替换成任何LangChain支持的LLM。

from langchain.llms import Ollama # 假设使用Ollama本地运行LLM from langchain.chains import RetrievalQA # 1. 初始化大语言模型 # 这里以Qwen2.5-7B-Instruct为例，你需要确保已在本地用Ollama拉取并运行该模型 # 你也可以替换为其他本地模型或API模型（如OpenAI、通义千问API等） llm = Ollama(model="qwen2.5:7b-instruct", temperature=0.1) # temperature控制回答的随机性，0.1表示较低，回答更确定和聚焦。 # 2. 创建检索器 # 从向量数据库中创建一个检索器，它会根据问题找出最相关的k个文档块 retriever = vectordb.as_retriever(search_kwargs={"k": 4}) # 检索最相关的4个片段 # 3. 创建问答链 # RetrievalQA链将检索器和LLM串联起来，自动完成“检索-生成”流程 qa_chain = RetrievalQA.from_chain_type( llm=llm, chain_type="stuff", # “stuff”模式简单地将所有检索到的上下文拼接到提示词中 retriever=retriever, return_source_documents=True, # 返回检索到的源文档，方便追溯 verbose=False # 设为True可以看到链的详细执行过程 ) print("智能问答链创建成功！")

RetrievalQA是LangChain里一个非常强大的工具链。它内部的工作流程是：当你提出一个问题，它先用检索器从向量数据库中找到相关的文档片段，然后把这些片段和你的问题一起组合成一个详细的提示词，最后交给大语言模型生成最终答案。

3.6 第六步：提问与测试

系统搭建好了，让我们问它几个问题，看看效果如何。

# 示例问题1：一个具体的技术问题 query_1 = "我们产品的数据备份策略是什么？" print(f"用户提问: {query_1}") result_1 = qa_chain({"query": query_1}) print(f"系统回答: {result_1['result']}") print("-" * 50) # 示例问题2：一个需要总结归纳的问题 query_2 = "请总结一下项目上线前需要做的安全检查有哪些。" print(f"用户提问: {query_2}") result_2 = qa_chain({"query": query_2}) print(f"系统回答: {result_2['result']}") print("-" * 50) # 我们还可以看看系统是根据哪些资料做出回答的 print("对于第一个问题，系统参考了以下文档片段：") for i, doc in enumerate(result_1['source_documents'][:2]): # 显示前两个来源 print(f"\n片段 {i+1} (来自: {doc.metadata.get('source', '未知')}):") print(doc.page_content[:200] + "...") # 只打印前200字符

运行这段代码，你应该能看到系统给出的答案，以及它做出这个回答所依据的文档片段。这不仅能验证系统是否工作，还能检查检索的相关性是否准确。

4. 让系统更智能：进阶技巧与优化

基础系统跑通了，但你可能希望它更聪明、更稳定。这里分享几个实践中常用的优化技巧。

技巧一：优化检索效果有时候，简单的向量相似度检索可能不够准。你可以尝试：

调整检索数量：search_kwargs={"k": 4}中的k值。太小可能信息不全，太大可能引入噪音。可以尝试3-6。
使用混合搜索：结合向量相似度（语义搜索）和关键词匹配（如BM25），取长补短。这需要你的向量数据库支持（如Weaviate、Qdrant）。
引入重排序：先用向量检索出较多的候选文档（比如20个），再用一个更精细但更慢的“重排序模型”对它们进行精排，选出最相关的几个。GTE系列本身就提供了配套的gte-multilingual-reranker-base模型。

技巧二：优化提示词工程给LLM的提示词决定了回答的质量。RetrievalQA默认的提示词可能不够好。你可以自定义一个更清晰的提示词模板：

from langchain.prompts import PromptTemplate # 自定义提示词模板 prompt_template = """ 请根据以下上下文信息回答问题。如果上下文信息不足以回答问题，请直接说“根据现有资料无法回答此问题”，不要编造信息。 上下文信息： {context} 问题：{question} 请根据上述上下文，用中文给出清晰、准确的回答。 """ PROMPT = PromptTemplate( template=prompt_template, input_variables=["context", "question"] ) # 使用自定义提示词创建问答链 qa_chain_advanced = RetrievalQA.from_chain_type( llm=llm, chain_type="stuff", retriever=retriever, chain_type_kwargs={"prompt": PROMPT}, # 传入自定义提示词 return_source_documents=True, )

这个模板明确要求模型基于上下文回答，并设置了“无法回答”的兜底策略，能有效减少模型胡编乱造的情况。

技巧三：处理长文档和复杂问题对于非常长的文档或复杂问题，stuff链（把所有上下文塞进提示词）可能超出模型上下文长度。可以尝试map_reduce或refine链，它们以更复杂的方式处理长上下文，但速度会慢一些。

技巧四：添加对话记忆上面的例子是单轮问答。如果你想实现多轮对话，让系统记住之前的聊天历史，可以使用ConversationalRetrievalChain。

from langchain.chains import ConversationalRetrievalChain from langchain.memory import ConversationBufferMemory memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True) conversational_qa_chain = ConversationalRetrievalChain.from_llm( llm=llm, retriever=retriever, memory=memory ) # 现在你可以进行连续对话了

5. 总结

走完这一趟，你会发现，用GTE和LangChain搭建一个可用的智能问答系统，并没有想象中那么复杂。核心步骤就是：处理文档、生成向量、存进数据库、检索、生成回答。这个系统就像一个不知疲倦的、精通你所有文档的助手，能极大提升信息检索和知识分发的效率。

在实际使用中，你可能会遇到一些挑战，比如文档分割的粒度不好把握、某些专业问题检索不准、或者LLM的回答有时会“放飞自我”。这就需要你根据具体的业务场景和文档特点，去反复调整参数、优化提示词、甚至考虑引入更复杂的检索策略。

我建议你先从一个小的、核心的知识库开始试点，比如某个产品线的FAQ或某个项目的技术文档。快速搭建原型，让团队成员试用，收集反馈。然后根据反馈，再决定是优化现有流程，还是引入更高级的功能，比如用户反馈学习、多路检索融合等。

技术终究是工具，最重要的是用它来解决真实的问题。希望这套GTE+LangChain的方案，能帮你把沉睡在文档里的知识激活，让信息和知识的流动变得更简单、更智能。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

GTE模型与LangChain集成：构建智能问答知识库