Langchain-Chatchat结合SkyWalking实现链路追踪-深圳市維司達科技有限公司

Langchain-Chatchat 结合 SkyWalking 实现链路追踪的深度实践

在企业级 AI 应用落地过程中，一个常被忽视但至关重要的问题浮出水面：系统“跑得起来”，却“看不透”。尤其是在基于私有知识库的智能问答场景中，用户一句简单的提问背后，可能触发了文档解析、文本切片、向量检索、模型推理等一系列复杂操作。当响应变慢或结果异常时，开发和运维人员往往陷入“日志大海捞针”的困境。

这正是我们引入分布式链路追踪的契机。以Langchain-Chatchat为代表的本地化大模型应用，虽然在数据安全上做到了极致——所有处理均在内网完成，不依赖任何外部 API ——但其代价是可观测性的缺失。传统的print和日志打点难以还原一次请求的完整生命周期。而将Apache SkyWalking这类现代化 APM 工具融入其中，则为这一黑盒系统打开了“透视窗口”。

设想这样一个场景：某金融客户反馈，最近几天系统回答延迟从原来的 2 秒上升到 8 秒以上。若没有链路追踪，排查路径可能是这样的：

查 LLM 日志？发现调用正常。
看向量数据库？连接无异常。
检查服务器资源？CPU 使用率仅 40%。

最终耗费数小时才发现，是新导入的一批 PDF 文件因扫描质量差，导致 OCR 解析阶段耗时激增。而有了 SkyWalking 后，打开 WebUI，一条完整的调用链清晰呈现：根 Span 下并列多个子 Span，“PDF 解析”环节赫然显示耗时 5.6s，其余环节均在合理范围。问题定位时间从小时级缩短至分钟级。

这就是链路追踪的价值：它不只是锦上添花的监控工具，更是保障 AI 系统稳定运行的“听诊器”。

核心架构与技术整合逻辑

Langchain-Chatchat 的本质是一个典型的多阶段流水线系统。它的每一个处理模块都可以被视为服务调用中的一个“微服务节点”，即使当前部署为单体架构。这种结构天然适合通过分布式追踪来建模。

而 SkyWalking 的优势在于，它不仅能记录时间维度的性能指标，还能自动构建服务依赖拓扑图。当我们把 OpenTelemetry SDK 嵌入到 Langchain-Chatchat 的核心流程中时，实际上是在为这条“AI 流水线”安装传感器网络。

整个系统的数据流动如下所示：

graph TD A[用户提问] --> B(Flask/FastAPI 接口层) B --> C{创建 Root Span} C --> D[文档加载] C --> E[文本切分] C --> F[向量化嵌入] C --> G[向量检索] C --> H[LLM 推理生成] D --> I[Span: load_document] E --> J[Span: text_splitting] F --> K[Span: embedding_generation] G --> L[Span: vector_retrieval] H --> M[Span: llm_inference] I --> N[上报 OTLP 数据] J --> N K --> N L --> N M --> N N --> O[SkyWalking OAP Server] O --> P[(Elasticsearch 存储)] P --> Q[SkyWalking WebUI 可视化]

这个流程的关键在于：每个逻辑单元都被封装成独立的 Span，并共享同一个 trace_id。这样，无论后续如何拆分为微服务，历史链路都能保持连续性。

更进一步，SkyWalking 支持 W3C Trace Context 标准，意味着未来如果我们将 Embedding 模型或 LLM 封装为独立服务并通过 gRPC 调用，只需启用对应语言的探针（Agent），即可实现跨进程的上下文传播，无需额外编码。

如何让 AI 流水线“看得见”

虽然 SkyWalking 对 Java 生态支持近乎无侵入，但在 Python 领域仍需手动埋点。好在 OpenTelemetry 提供了足够灵活的 API，让我们可以精准控制追踪粒度。

以下是一个经过生产环境验证的集成示例，在保留原有业务逻辑的同时注入追踪能力：

from opentelemetry import trace from opentelemetry.sdk.trace import TracerProvider from opentelemetry.sdk.trace.export import BatchSpanProcessor from opentelemetry.exporter.otlp.proto.grpc.trace_exporter import OTLPSpanExporter from langchain_community.document_loaders import PyPDFLoader from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain_community.embeddings import HuggingFaceEmbeddings from langchain_community.vectorstores import FAISS from langchain.chains import RetrievalQA from langchain_community.llms import ChatGLM import time # 初始化全局 Tracer trace.set_tracer_provider(TracerProvider()) tracer = trace.get_tracer("chatchat.tracer") # 配置 OTLP Exporter（指向 SkyWalking OAP） otlp_exporter = OTLPSpanExporter( endpoint="http://skywalking-oap:11800", # SkyWalking 默认 gRPC 端口 insecure=True # 若未启用 TLS ) span_processor = BatchSpanProcessor( otlp_exporter, max_queue_size=1000, schedule_delay_millis=5000 # 每 5 秒批量上报一次 ) trace.get_tracer_provider().add_span_processor(span_processor) def build_knowledge_qa_chain(doc_path: str, kb_name: str): with tracer.start_as_current_span("document_loading") as span: span.set_attribute("input.file.path", doc_path) span.set_attribute("knowledge_base.name", kb_name) loader = PyPDFLoader(doc_path) docs = loader.load() with tracer.start_as_current_span("text_splitting") as span: splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50) texts = splitter.split_documents(docs) span.set_attribute("chunk.count", len(texts)) span.set_attribute("chunk.size.target", 500) span.set_attribute("chunk.overlap", 50) with tracer.start_as_current_span("embedding_processing") as span: embeddings = HuggingFaceEmbeddings(model_name="moka-ai/m3e-base") db = FAISS.from_documents(texts, embeddings) span.set_attribute("embedding.model", "moka-ai/m3e-base") span.set_attribute("vector.store.type", "FAISS") with tracer.start_as_current_span("llm_initialization") as span: llm = ChatGLM( endpoint_url="http://localhost:8000", model_kwargs={"temperature": 0.7} ) span.set_attribute("llm.endpoint", "http://localhost:8000") span.set_attribute("llm.model", "chatglm3-6b") return RetrievalQA.from_chain_type( llm=llm, chain_type="stuff", retriever=db.as_retriever(search_kwargs={"k": 3}), return_source_documents=True ) def query_with_tracing(qa_chain, question: str, user_id: str): with tracer.start_as_current_span("user_query_execution") as root_span: root_span.set_attribute("user.id", user_id) root_span.set_attribute("query.text", question[:100]) # 截断避免敏感信息泄露 root_span.set_attribute("query.length", len(question)) with tracer.start_as_current_span("retrieval_phase") as ret_span: start_t = time.time() result = qa_chain.invoke({"query": question}) retrieval_time = time.time() - start_t ret_span.set_attribute("phase.duration.sec", retrieval_time) return result["result"], result.get("source_documents", [])

关键设计细节说明

Span 层级设计
采用树状结构组织 Span，例如user_query_execution作为父 Span，其下包含retrieval_phase、llm_inference等子 Span。这种嵌套关系能真实反映控制流，便于分析各阶段耗时占比。
自定义属性增强可读性
利用set_attribute()添加业务标签，如knowledge_base.name、chunk.count、embedding.model。这些字段可在 SkyWalking UI 中作为过滤条件使用，极大提升排查效率。
防止敏感信息泄露
用户原始问题仅记录前 100 字符，且不在日志中打印完整内容。这是合规审计的基本要求，尤其在金融、医疗等行业不可妥协。
异步上报降低性能影响
BatchSpanProcessor默认每 5 秒批量发送一次数据，避免高频小包造成网络抖动。实测表明，在千次/分钟级别的请求下，追踪开销对整体延迟的影响小于 3%。
兼容 SkyWalking 多后端存储
使用标准 OTLP 协议导出数据，可无缝对接 Elasticsearch、MySQL 或 TiKV。推荐生产环境使用 ES 集群以支持高并发查询。

实战中的问题洞察与优化建议

在实际部署过程中，我们通过 SkyWalking 发现了一些意想不到的问题，这些问题仅靠传统日志几乎无法快速定位。

案例一：看似正常的“慢查询”

现象：部分用户反馈偶尔出现超长延迟（>10s），但系统监控显示 GPU 利用率不高，LLM 接口也无报错。

通过追踪链分析发现：
- 多数请求中llm_inference耗时约 1.5s；
- 出现延迟的请求中，该阶段飙升至 9.8s；
- 进一步对比发现，这些请求的embedding_generation阶段耗时也显著增加（正常 0.8s → 异常 4.2s）。

最终定位原因为：某些文档含有大量图片或复杂表格，导致文本提取困难，生成的 chunk 数量剧增，进而引发向量化计算负载陡升。解决方案包括：
- 在前端限制上传文件类型；
- 增加预处理环节检测文档复杂度；
- 对高复杂度文档启用异步处理队列。

案例二：缓存失效引发雪崩效应

背景：为提升性能，我们在向量检索层增加了 Redis 缓存机制，缓存 key 由问题文本哈希生成。

问题：某日凌晨系统突现大面积延迟，持续约 20 分钟。

链路追踪揭示真相：
- 所有请求的vector_retrieval阶段耗时从 <100ms 上升至 >1s；
- 时间轴显示故障始于某个定时任务执行时刻；
- 查阅代码发现，该任务清空了整个 Redis 缓存。

教训深刻：缓存预热机制缺失会导致“冷启动”性能灾难。后续改进措施包括：
- 缓存清理改为渐进式淘汰；
- 关键缓存设置永不过期 + 主动刷新；
- 在 SkyWalking 中添加缓存命中率指标监控。

案例三：模型降级静默发生

现象：问答质量下降，但系统无任何错误日志。

追踪数据显示：
-llm_inference耗时异常偏低（仅 0.3s）；
- 正常应为 1.5s 左右；
- 结合日志发现，GPU 显存不足，触发 fallback 到 CPU 模式。

由于 LLM 框架内部处理了设备切换，未抛出异常，导致问题长期未被察觉。解决方法：
- 在 Span 中主动记录运行设备（llm.device=cpu/gpu）；
- 设置告警规则：当llm_inference平均耗时下降超过 50%，触发通知；
- 定期检查 GPU 资源分配策略。

架构演进方向与工程启示

当前大多数 Langchain-Chatchat 部署仍为单体架构，但这并不妨碍我们以微服务思维进行设计。SkyWalking 的存在，使得未来的架构演进路径更加清晰。

微服务拆分建议

功能模块	是否建议独立服务	理由
文档解析与加载	是	IO 密集型，易阻塞主流程
文本切分与清洗	否	轻量操作，可与解析合并
向量化嵌入	是	计算密集型，需 GPU 加速
向量数据库访问	是	可统一对外提供检索 API
LLM 推理	必须	资源消耗大，需独立扩缩容

一旦拆分完成，SkyWalking 可自动识别新增的服务节点，并生成动态依赖图。例如：

graph LR Web[Web Service] --> Parser[Document Parser] Web --> Embedder[Embedding Service] Web --> Retriever[Vector Retriever] Web --> LLM[LLM Gateway] Retriever --> Milvus[(Milvus DB)] LLM --> GPU_Cluster[GPU Cluster] Embedder --> GPU_Cluster

这张图不仅用于监控，还可作为容量规划和故障演练的重要依据。

与其他可观测性系统的协同

尽管 SkyWalking 功能全面，但在实际生产环境中，通常需要与其他系统联动：

与 ELK 联动：将trace_id注入每条日志输出，实现“从链路跳转到日志”的双向追溯。
与 Prometheus 集成：通过 SkyWalking 的 Metrics Reporter 输出关键指标（如 P99 延迟、错误率），接入现有告警体系。
与 Grafana 结合：利用 SkyWalking 的 GraphQL API 构建定制化仪表盘，满足特定业务监控需求。