Langchain-Chatchat问答系统用户行为分析功能实现-深圳市維司達科技有限公司

Langchain-Chatchat问答系统用户行为分析功能实现

在企业知识管理的智能化转型中，一个常见的挑战是：我们部署了本地大模型问答系统，但很难回答这样一个问题——“这个系统到底有没有用？”
用户问了什么？哪些问题总是得不到满意答复？知识库是否存在盲区？这些问题如果无法量化，AI 就只能停留在“能用”的层面，而无法进化为“好用、持续优化”的智能中枢。

正是在这种现实需求驱动下，用户行为分析成为了构建高成熟度企业级问答系统的必选项。以开源项目Langchain-Chatchat为例，它不仅实现了基于私有文档的知识检索与本地化推理，更因其高度可扩展的架构，成为集成行为追踪的理想平台。通过记录每一次交互背后的数据链条，我们可以让系统“学会反思”，进而推动知识资产的动态演进。

核心技术支撑体系解析

要实现有效的用户行为分析，必须深入理解其底层依赖的三大技术支柱：LangChain 框架的流程编排能力、大型语言模型（LLM）的响应生成机制，以及向量数据库支撑的语义检索能力。它们共同构成了可观测性的技术基础。

LangChain：让每一步操作都“可监听”

LangChain 的真正优势不在于封装了多少 AI 能力，而在于它把复杂的 AI 流程拆解成了可插拔、可监听的模块单元。这种设计天然适合注入日志埋点逻辑。

比如，在典型的 Retrieval-QA 流程中：
- 文档加载 → 分块处理 → 向量化存储 → 用户提问 → 问题编码 → 检索匹配 → 上下文拼接 → LLM 推理 → 返回答案

每一个环节都可以作为数据采集点。开发者无需修改核心逻辑，只需在关键节点添加回调函数或中间件，即可捕获输入输出内容。例如：

from langchain.callbacks.base import BaseCallbackHandler class LoggingCallbackHandler(BaseCallbackHandler): def on_llm_start(self, serialized, prompts, **kwargs): log_event("llm_start", prompts=prompts) def on_retriever_end(self, documents, **kwargs): log_event("retrieval_result", docs=[{ "source": doc.metadata.get("source"), "page": doc.metadata.get("page"), "content_snippet": doc.page_content[:100] } for doc in documents]) def on_chain_end(self, outputs, **kwargs): log_event("final_response", response=outputs.get("result"))

通过自定义BaseCallbackHandler，我们可以在不侵入主业务流程的前提下，实时捕获检索结果、提示词构造、最终输出等关键信息。这为后续的行为建模提供了原始数据源。

更重要的是，LangChain 支持将多个组件串联成 Chain，并允许对每个 Chain 注册独立的回调。这意味着你可以针对不同知识库（如财务政策 vs 技术手册）设置差异化监控策略，甚至根据用户角色动态启用/关闭某些跟踪项。

大型语言模型：不只是“回答机器”

很多人认为 LLM 只是一个黑箱生成器，但在实际工程中，它的表现完全可以被量化和评估。尤其是在 Langchain-Chatchat 这类系统中，LLM 是运行在本地或内网环境中的明确服务实例，具备完整的可观测性条件。

当你调用一次 ChatGLM 或 Qwen 模型时，可以获取到以下维度的信息：
- 使用的模型名称及版本（如chatglm3-6b-int4）
- 输入 token 数量与输出长度
- 响应延迟（从请求发出到接收完整回复的时间）
- 是否触发流式输出、首次响应时间（Time to First Token）

这些指标直接反映了系统的性能健康状态。例如，若某段时间内平均响应时间从 800ms 上升至 2.3s，可能意味着 GPU 内存不足导致频繁换页，或是并发请求过高引发排队。

此外，结合return_source_documents=True参数返回的上下文来源，还能判断回答是否“有据可依”。如果一个问题的答案未引用任何文档片段，则极有可能是模型在“幻觉”作答——这类事件一旦被记录，就能用于自动识别知识盲区。

工程建议：不要简单地将 LLM 视为一次性工具。应将其视为一个长期运行的服务节点，定期收集其负载、吞吐量和错误率指标，建立性能基线。

向量检索：从“命中与否”看知识覆盖质量

传统关键词搜索容易陷入“一字之差，千里之外”的困境。而基于 FAISS、Chroma 等向量数据库的语义检索，则能识别“年假”与“休假”、“报销流程”与“费用核销”之间的语义关联。

但这并不意味着检索总是成功的。相反，失败的检索往往比成功的更有价值。

当用户提问后，系统可以通过以下方式评估检索质量：
- 是否返回了 Top-K 文档（如 k=3）？
- 最高相似度得分是否低于阈值（如余弦相似度 < 0.6）？
- 匹配文档是否集中在某一类文件（如全是旧版制度）？

这些信号可以转化为结构化日志字段：

"retrieval_status": { "matched_count": 0, "highest_similarity": 0.45, "candidate_sources": ["hr_policy_v1.pdf", "employee_handbook.docx"] }

长期积累后，就可以统计出“高频无匹配问题”榜单。比如连续一周内，“远程办公申请流程”被问了 17 次却从未命中有效文档，这就明确指向了一个需要补充的知识缺口。

实践洞察：不要等到用户投诉才去优化知识库。应该把“低匹配率问题”当作系统自检的警报器，主动触发知识更新流程。

行为分析功能的设计与落地

真正的难点从来不是“能不能记录”，而是“怎么记录才不影响性能，又能满足分析需求”。

架构融合：嵌入现有流程而非打断它

理想的行为采集应当像血液检测一样——抽一滴血就能了解全身状况，而不必停机开刀。因此，最佳实践是将日志写入作为异步任务处理。

Langchain-Chatchat 通常基于 FastAPI 提供接口服务，我们可以利用 Python 的asyncio.create_task()在响应返回后继续执行日志持久化：

import asyncio from datetime import datetime async def log_user_interaction(data): # 异步写入 SQLite 或发送到消息队列 await database.execute( "INSERT INTO user_logs VALUES (?, ?, ?, ?)", (data['timestamp'], data['user_id'], data['question'], json.dumps(data)) ) @app.post("/query") async def handle_query(request: QueryRequest): start_time = time.time() result = qa_chain({ "query": request.question }) response_time = int((time.time() - start_time) * 1000) # 立即返回结果，避免阻塞 asyncio.create_task(log_user_interaction({ "timestamp": datetime.utcnow().isoformat(), "user_id": generate_anonymous_id(request.client_ip), "question": request.question, "response": result["result"], "matched_docs": extract_doc_metadata(result.get("source_documents", [])), "response_time_ms": response_time, "model_used": CURRENT_MODEL_NAME })) return {"answer": result["result"]}

这种方式确保主链路响应不受影响，即使日志数据库暂时不可用也不会导致查询失败。

数据结构设计：既要全面，也要克制

日志字段并非越多越好。过度采集会带来存储膨胀和隐私风险。推荐采用分层记录策略：

层级	字段示例	存储周期	用途
必录层	时间戳、匿名用户ID、问题文本、响应耗时	长期保留	性能监控、趋势分析
可选层	匹配文档路径、相似度分数、模型输出摘要	保留90天	质量诊断、调试溯源
敏感层	完整回答原文、会话历史	仅内存暂存，不出站	实时反馈收集

对于涉及敏感信息的内容（如员工薪资相关的提问），可在写入前进行脱敏处理，或由管理员配置关键词过滤规则。

存储与分析方案选择

小规模部署可直接使用轻量级数据库：

CREATE TABLE user_logs ( id INTEGER PRIMARY KEY AUTOINCREMENT, timestamp TEXT NOT NULL, user_id TEXT NOT NULL, question TEXT NOT NULL, response_summary TEXT, matched_sources JSON, response_time_ms INTEGER, model_version TEXT, feedback_score INTEGER DEFAULT NULL );

SQLite 单文件特性非常适合边缘部署场景，配合定期备份即可满足基本审计需求。

当数据量增长至每日万级请求时，建议迁移到专用分析引擎：
-Elasticsearch：支持全文检索与聚合分析，便于构建可视化仪表盘；
-ClickHouse：列式存储，擅长处理大规模结构化日志，适合做留存、漏斗类分析；
-Prometheus + Grafana：若重点关注性能指标，可通过 Exporter 暴露关键统计数据。

从数据到价值：行为分析的实际产出

有了数据只是起点，真正的价值在于从中提炼出可行动的洞察。

场景一：知识库健康度自检

通过定时任务扫描日志表，生成如下报告：

【本周知识盲区预警】 - “弹性工作制实施细则” 被问及 12 次，0 次命中 - “海外差旅保险购买指南” 平均相似度仅 0.31 - 建议动作：补充《2025年新版考勤管理制度》至知识库

这类自动化报告可直接推送给知识管理员，形成闭环改进机制。

场景二：服务质量量化评估

结合人工反馈按钮（如“此回答是否有帮助？”五分制评分），训练简单的 QA 质量预测模型：

# 特征工程示例 features = [ retrieval_highest_similarity, # 检索质量 response_length, # 回答完整性 response_time_ms, # 响应速度 is_follow_up_question # 是否多轮对话 ] # 初步发现：相似度 > 0.75 的回答，85% 获得 4 分以上评价

虽然不需要复杂模型，但简单的相关性分析已足以指导优化方向。