Langchain-Chatchat如何监控系统运行状态？-深圳市維司達科技有限公司

Langchain-Chatchat如何监控系统运行状态？

在企业级AI应用日益普及的今天，基于大语言模型（LLM）的本地知识库问答系统正成为数据敏感场景下的首选方案。Langchain-Chatchat 作为一款支持私有文档离线检索与智能问答的开源框架，凭借其对 ChatGLM、Qwen、Llama 等主流本地模型的良好兼容性，已被广泛应用于金融、医疗、法务等高安全要求领域。

然而，这类系统的复杂性也带来了新的挑战：当用户反馈“回答变慢”甚至“服务无响应”时，开发者往往难以快速定位问题根源——是向量检索耗时增加？还是 LLM 推理显存溢出？亦或是整个服务进程已崩溃？这些问题凸显了一个关键需求：我们必须建立一套轻量、精准、可落地的运行状态监控体系。

监控从哪里切入？理解核心链路是第一步

Langchain-Chatchat 的工作流程本质上是一条由多个组件串联而成的数据管道：

文档加载与处理→
文本分块与嵌入编码→
向量存储与相似度检索→
大模型生成回答

每一个环节都可能成为性能瓶颈。更复杂的是，这些操作通常依赖 GPU 加速，资源争用和内存泄漏的风险显著高于传统 Web 服务。因此，有效的监控不能只停留在“接口是否通”的层面，而必须深入到模块级指标采集和端到端延迟拆解。

幸运的是，LangChain 框架本身的设计为监控提供了天然便利。它的链式结构（Chains）、工具抽象（Tools）以及回调机制（Callbacks），让我们可以在不侵入核心逻辑的前提下，优雅地插入监控钩子。

在关键节点埋点：用时间戳讲清“慢在哪里”

最直接也最实用的监控方式，就是在关键步骤前后记录时间差。比如下面这段代码，展示了如何通过简单的time.perf_counter()实现细粒度性能采样：

import time from langchain_community.vectorstores import FAISS from langchain_community.embeddings import HuggingFaceEmbeddings embeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-small-en-v1.5") db = FAISS.load_local("vectorstore", embeddings, allow_dangerous_deserialization=True) def query_with_latency_monitoring(question: str): # 阶段1：向量化查询语句 start_encode = time.perf_counter() query_vector = embeddings.embed_query(question) encode_time = time.perf_counter() - start_encode # 阶段2：执行向量检索 start_search = time.perf_counter() retrieved_docs = db.similarity_search_by_vector(query_vector, k=3) search_time = time.perf_counter() - start_search total_time = encode_time + search_time print(f"[Monitor] Encoding: {encode_time*1000:.1f}ms | " f"Search: {search_time*1000:.1f}ms | " f"Total: {total_time*1000:.1f}ms") return retrieved_docs

这种做法的价值在于：它把一个模糊的“查询慢”问题转化为了清晰的技术判断依据。如果发现search_time异常升高，可能是 FAISS 索引未使用 GPU 或 nprobe 设置过小；若encode_time偏高，则需检查嵌入模型是否加载到了正确设备上。

工程建议：对于高频调用的服务，推荐使用time.perf_counter()而非time.time()，前者精度更高且不受系统时钟调整影响。

如何知道知识库“还有效”？用匹配得分衡量覆盖质量

除了速度，我们还需要关注结果的有效性。一个常见的问题是：随着时间推移，原始文档更新后未重新索引，导致检索返回的内容与问题无关。这种情况单纯靠延迟监控无法察觉。

解决方案是监控每次检索的最高相似度得分。以 FAISS 为例，默认使用内积（IP）作为距离度量，归一化后的向量得分范围为 [-1, 1]，理想情况下相关文档应接近 1.0。

import numpy as np import faiss index = faiss.read_index("faiss_index.bin") query_vec = model.encode([question]).astype('float32') faiss.normalize_L2(query_vec) # 确保归一化 scores, indices = index.search(query_vec, k=1) similarity = scores[0][0] if similarity < 0.6: print("[Warning] Low retrieval confidence detected. Consider updating knowledge base.")

将该逻辑集成进日志系统后，运维人员可以定期查看低分查询列表，及时触发文档重载流程。这实际上构建了一种“被动健康检查”机制。

大模型推理监控：不只是延迟，更要关注吞吐与资源

本地 LLM 是整个系统中最昂贵的资源消耗者。监控不能仅停留在“回复了多久”，而要深入到硬件利用率层面。以下是几个必须关注的核心指标：

指标	获取方式	实际意义
生成速度（tokens/s）	输出token数 ÷ 总耗时	反映GPU算力利用效率
显存占用（MB）	`nvidia-smi`或`torch.cuda.memory_allocated()`	判断是否存在内存泄漏或并发超限
输入/输出长度	tokenizer统计	影响延迟预测与成本估算

下面是一个增强版的生成函数，集成了多维监控：

import torch import time from transformers import AutoTokenizer, AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B-Chat", device_map="auto") tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-7B-Chat", trust_remote_code=True) def generate_with_monitoring(prompt: str, max_new_tokens=512): inputs = tokenizer(prompt, return_tensors="pt").to(model.device) input_len = inputs.input_ids.shape[1] # 记录初始显存 mem_before = torch.cuda.memory_allocated() / 1024**2 if torch.cuda.is_available() else 0 start_time = time.time() with torch.no_grad(): outputs = model.generate(**inputs, max_new_tokens=max_new_tokens) end_time = time.time() output_len = outputs.shape[1] - input_len gen_time = end_time - start_time tps = output_len / gen_time if gen_time > 0 else 0 mem_after = torch.cuda.memory_allocated() / 1024**2 print(f"[LLM Monitor] Input:{input_len}t | Output:{output_len}t | " f"Time:{gen_time:.2f}s | Speed:{tps:.2f} t/s | " f"GPU Mem: +{mem_after-mem_before:.1f}MB") return tokenizer.decode(outputs[0], skip_special_tokens=True)

这类信息长期积累后，可用于绘制性能趋势图。例如，若观察到 TPS 持续下降但输入长度稳定，很可能是模型在长时间运行中出现了缓存碎片或显存泄漏，提示需要优化推理后端或引入定期重启策略。

构建可视化监控面板：Prometheus + Grafana 快速落地

虽然打印日志有助于调试，但真正的生产级监控需要聚合分析能力。推荐采用Prometheus + Grafana组合，实现指标暴露、收集与可视化的一体化方案。

首先，在 FastAPI 后端中启用 Prometheus 客户端：

from prometheus_client import Counter, Histogram, Gauge, start_http_server from functools import wraps import time # 定义核心指标 REQUEST_COUNT = Counter('chatchat_requests_total', 'Total requests', ['endpoint']) LATENCY_HIST = Histogram('chatchat_request_duration_seconds', 'Request latency', ['method']) GPU_MEMORY_USAGE = Gauge('chatchat_gpu_memory_mb', 'Current GPU memory usage') # 启动独立监控端口 start_http_server(8000) def monitor_endpoint(method: str): def decorator(f): @wraps(f) def wrapped(*args, **kwargs): start = time.time() try: result = f(*args, **kwargs) LATENCY_HIST.labels(method=method).observe(time.time() - start) REQUEST_COUNT.labels(endpoint=method).inc() return result except Exception as e: REQUEST_COUNT.labels(endpoint=f"{method}_error").inc() raise e return wrapped return decorator

然后将其应用于主要 API 接口：

@app.post("/query") @monitor_endpoint("query") async def handle_query(request: QueryRequest): response = generate_with_monitoring(request.prompt) update_gpu_metrics() # 定期刷新GPU指标 return {"response": response}

最后，配置 Grafana 连接 Prometheus 数据源，即可构建如下视图：
- 实时 QPS 曲线
- P95 请求延迟热力图
- GPU 显存使用趋势
- 错误率告警看板

这套组合的优势在于：零侵入、标准化、可扩展性强，且完全适配容器化部署环境。

不止于“看见”：让监控驱动自动化运维

高级监控的目标不是让人盯着屏幕，而是实现“感知—决策—响应”的闭环。以下是一些可行的进阶实践：

1. 自动降级策略

当检测到连续多次 LLM 生成超时（如 >30s），可临时切换至轻量模型或返回缓存答案，并记录事件用于后续分析。

2. 动态并发控制

基于当前 GPU 显存使用率动态调整最大并发请求数。例如，当显存占用超过 85% 时，拒绝新请求并提示排队。

3. 健康检查与自愈

设置/healthz接口，结合 systemd 或 Kubernetes liveness probe 实现进程异常自动重启。

@app.get("/healthz") def health_check(): if torch.cuda.is_available(): free_mem, total_mem = torch.cuda.mem_get_info() if free_mem < 1 * 1024**3: # 少于1GB则视为不健康 return {"status": "unhealthy", "reason": "GPU memory exhausted"} return {"status": "healthy"}