Langchain-Chatchat问答系统上线前必做的5项性能测试-深圳市維司達科技有限公司

Langchain-Chatchat 问答系统上线前必做的 5 项性能测试

在企业级 AI 应用落地的过程中，一个常见的挑战是如何在保障数据安全的前提下，实现高效、准确的知识检索与智能问答。近年来，随着大语言模型（LLM）技术的成熟，越来越多组织开始尝试将 LLM 部署于本地环境，构建私有化知识助手。其中，Langchain-Chatchat因其开源、模块化和对中文场景的良好支持，成为不少团队的首选方案。

但现实往往比理想复杂得多。即便所有组件都能跑通，也不代表系统就 ready for production。我们曾见过太多项目在演示阶段表现惊艳，一旦投入实际使用便频繁超时、回答错乱，甚至因内存溢出直接崩溃。问题不在于模型本身，而在于缺乏对系统整体性能的充分验证。

要让 Langchain-Chatchat 真正在生产环境中稳定运行，必须跨越五道“性能关卡”：文档解析效率、向量化速度、检索准确性、模型推理延迟，以及端到端响应能力。这五项测试不是可选项，而是上线前的必要门槛。

文档解析：别让第一公里拖垮整个流程

很多人忽视了文档解析的重要性，认为它只是个“前置步骤”。但实际上，这是整个系统的入口瓶颈。如果一份 PDF 要花十几秒才能读完，后续再快也无济于事。

常见问题包括：
- 扫描版 PDF 使用 OCR 时 CPU 占用飙升；
- 复杂排版导致文本顺序错乱（比如表格内容插到段落中间）；
- 某些解析器无法处理加密或损坏文件，直接抛异常。

以PyPDF2和Unstructured为例，前者轻量但对复杂布局支持差；后者功能强，但依赖较多，资源消耗更高。建议根据文档类型做分类处理：普通文本用轻量解析器，合同、报表等结构化文档则启用 LayoutParser 增强解析。

下面这段代码可用于批量测试不同格式文件的解析耗时：

from langchain.document_loaders import PyPDFLoader, Docx2txtLoader import time import os def parse_document(file_path): start_time = time.time() if file_path.endswith(".pdf"): loader = PyPDFLoader(file_path) elif file_path.endswith(".docx"): loader = Docx2txtLoader(file_path) else: raise ValueError("Unsupported file type") try: documents = loader.load() except Exception as e: print(f"解析失败 {file_path}: {str(e)}") return None end_time = time.time() print(f"✅ 文件 {os.path.basename(file_path)} 解析耗时: {end_time - start_time:.2f}s | " f"提取 {len(documents)} 个文本块") return documents # 批量测试示例 for filename in ["manual.pdf", "report.docx", "policy.txt"]: parse_document(filename)

工程建议：
- 设置单文件大小上限（如 50MB），防止 OOM；
- 对扫描件预估 OCR 时间，超过阈值时提示用户上传清晰版本；
- 引入异步任务队列（如 Celery），避免阻塞主服务。

向量化：语义理解的基石不能慢

向量化是连接“人类语言”和“机器计算”的桥梁。它的质量决定了系统能否真正理解“收入”和“营收”是同一件事。但很多团队只关注模型效果，忽略了推理性能。

举个例子：你有一万份员工手册需要索引，每条平均编码耗时 200ms，那总时间就是33分钟—— 这还只是单线程的情况。如果你用的是 CPU 推理，可能更久。

BGE-small-zh-v1.5 是目前中文场景下性价比很高的选择，在 Tesla T4 上可以做到 80 句/秒以上。但如果部署在消费级显卡或纯 CPU 环境，性能会急剧下降。

下面是评估嵌入模型吞吐能力的标准脚本：

from sentence_transformers import SentenceTransformer import numpy as np import time model = SentenceTransformer('BAAI/bge-small-zh-v1.5') def embed_texts(texts): start_time = time.time() embeddings = model.encode(texts, normalize_embeddings=True) end_time = time.time() avg_time_per_text = (end_time - start_time) / len(texts) total_tokens = sum(len(t.split()) for t in texts) avg_tps = total_tokens / (end_time - start_time) print(f"📊 向量化 {len(texts)} 条文本，平均耗时: {avg_time_per_text:.3f}s/条 | " f"平均 token 速率: {avg_tps:.1f} t/s") return embeddings # 模拟真实场景输入 sample_texts = [ "公司年假政策有哪些规定？", "项目立项需要哪些审批流程？", "报销发票的金额上限是多少？" ] * 50 embeddings = embed_texts(sample_texts)

关键观察点：
- 单条延迟是否稳定？是否存在长尾抖动？
- 批量处理是否有明显加速？是否达到 GPU 利用率饱和？

优化方向：
- 开启批处理（batching），提升 GPU 利用率；
- 使用 ONNX Runtime 或 TensorRT 加速推理；
- 中文场景优先选用 BGE、CoSENT 等专为中文优化的模型。

向量检索：快而不准等于白忙

检索环节常被误认为“只要有向量库就行”，实则不然。FAISS、Chroma、Milvus 看似都能查，但在大规模数据下的表现差异巨大。

核心指标有两个：
1.召回率（Recall@K）：正确答案有没有出现在 Top-K 结果中；
2.查询延迟：P95 延迟应控制在 500ms 以内。

特别是当知识库增长到十万级以上条目时，暴力搜索（IndexFlatL2）已不可行，必须采用近似最近邻（ANN）算法，如 HNSW 或 IVF-PQ。

以下是一个基于 FAISS 的性能测试模板：

import faiss import numpy as np import time dimension = 512 index = faiss.IndexHNSWFlat(dimension, 32) # 更适合大规模检索 # 模拟已有向量库 nb = 10_000 xb = np.random.rand(nb, dimension).astype('float32') index.add(xb) # 查询测试 nq = 100 xq = np.random.rand(nq, dimension).astype('float32') latencies = [] for q in xq: q = np.expand_dims(q, axis=0) start = time.time() distances, indices = index.search(q, k=5) latencies.append(time.time() - start) p95 = np.percentile(latencies, 95) print(f"🔍 向量检索 P95 延迟: {p95*1000:.2f}ms | 平均: {np.mean(latencies)*1000:.2f}ms")

实战建议：
- 小规模（<1万条）可用 Chroma + 内存索引；
- 中大型知识库推荐 Milvus 或 Weaviate，支持分布式部署；
- 定期重建索引，避免“语义漂移”导致精度下降；
- 可结合元数据过滤（如部门、时间范围），减少搜索空间。

大模型推理：别让“大脑”卡住用户体验

LLM 是整个系统的“大脑”，但它也是最吃资源的一环。7B 模型 FP16 推理需要约 14GB 显存，这对很多设备来说是个门槛。

更重要的是两个动态指标：
-首 token 延迟（TTFT）：用户提问后多久能看到第一个字输出；
-token 生成速率（TPS）：决定回答流畅度，低于 10 t/s 用户就会感觉“卡”。

以 Qwen-7B 为例，在 RTX 3090 上通过 INT4 量化可压缩至 6~8GB 显存，生成速度可达 28 tokens/s，基本满足交互需求。

以下是本地推理性能测试代码：

from transformers import AutoTokenizer, AutoModelForCausalLM import torch import time model_name = "qwen/Qwen-7B-Chat" tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_name, device_map="auto", torch_dtype=torch.float16, trust_remote_code=True ).eval() def generate_answer(prompt): inputs = tokenizer(prompt, return_tensors="pt").to("cuda") start_time = time.time() with torch.no_grad(): outputs = model.generate( **inputs, max_new_tokens=512, do_sample=True, temperature=0.7, top_p=0.9, pad_token_id=tokenizer.eos_token_id ) end_time = time.time() response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True) gen_time = end_time - start_time token_count = outputs.shape[1] - inputs.input_ids.shape[1] tps = token_count / gen_time if gen_time > 0 else 0 print(f"🧠 生成 {token_count} 个 token，耗时: {gen_time:.2f}s | " f"速度: {tps:.2f} t/s") return response # 测试 prompt 构造 context = "根据《员工手册》第3章第5条，年假天数按工龄计算..." question = "我工作三年能休几天年假？" prompt = f"请根据以下信息回答问题：\n\n{context}\n\n问题：{question}" generate_answer(prompt)

调优技巧：
- 启用 KV Cache 减少重复 attention 计算；
- 使用 vLLM、TGI 等推理框架提升并发能力；
- 对高频问题启用缓存，避免重复生成；
- 控制上下文长度，超过 4k 后性能衰减明显。

端到端测试：模拟真实用户的终极考验

前面四项测试都通过了，就能上线了吗？不一定。组件 individually excellent ≠ system excellent。只有端到端压测才能暴露真正的瓶颈。

你需要问自己几个问题：
- 在 10 个并发请求下，系统会不会开始超时？
- 某些特定问题是否会引发异常（如空文档、特殊字符）？
- 日志是否完整记录了各阶段耗时，便于定位问题？

以下是一个多线程压力测试脚本：

import requests import time import threading from concurrent.futures import ThreadPoolExecutor API_URL = "http://localhost:8000/query" test_questions = [ "今年的年度预算有哪些调整？", "员工请假流程是什么？", "项目A的负责人是谁？", "", # 测试空输入容错 "!!!???~~~" # 测试异常输入 ] def send_request(q, timeout=10): start_time = time.time() try: resp = requests.post(API_URL, json={"question": q}, timeout=timeout) latency = time.time() - start_time status = "✅ 成功" if resp.status_code == 200 else f"❌ 失败({resp.status_code})" print(f"{status} | '{q[:20]}...' -> {latency:.2f}s") except Exception as e: latency = time.time() - start_time print(f"🔴 异常 | '{q[:20]}...' -> {latency:.2f}s | {type(e).__name__}") # 单轮测试 print("➡️ 单请求测试") for q in test_questions: send_request(q) # 并发测试 print("\n⚡ 并发压力测试 (20 线程)") with ThreadPoolExecutor(max_workers=20) as executor: futures = [executor.submit(send_request, q) for q in test_questions * 5] # 发起 25 次请求 for future in futures: future.result()

生产部署建议：
- 使用 Nginx 或 Traefik 做反向代理和负载均衡；
- 集成 Prometheus + Grafana 实现可视化监控；
- 设置熔断机制，防止雪崩；
- 记录完整 trace 日志，包含各阶段耗时（如 parse_time、retrieve_time 等）。