Langchain-Chatchat与Docker Compose一键部署脚本分享-深圳市維司達科技有限公司

Langchain-Chatchat 与 Docker Compose：打造企业级本地智能问答系统的实践之路

在当今 AI 技术飞速发展的背景下，越来越多的企业开始探索如何将大语言模型（LLM）真正落地到实际业务中。然而，一个现实的挑战摆在面前：通用云服务虽然强大，但面对金融、医疗、法律等对数据隐私高度敏感的行业，直接使用公有云 API 显然存在不可接受的风险。

于是，“本地化部署 + 私有知识增强”逐渐成为主流方向。而Langchain-Chatchat正是这一趋势下的佼佼者——它让组织无需依赖外部网络，就能构建出真正“懂自己”的 AI 助手。更关键的是，借助Docker Compose的容器编排能力，这套复杂的系统可以做到“一键启动”，极大降低了技术门槛。

这不仅是技术选型的胜利，更是工程思维的进步：我们不再追求每个组件都从零搭建，而是通过模块化集成，快速验证价值、持续迭代优化。

当 RAG 遇上中文场景：Langchain-Chatchat 的设计哲学

如果你熟悉 LangChain 框架，可能会觉得 Langchain-Chatchat 只是其简单封装。但实际上，它的核心价值在于针对中文企业场景做了深度适配和流程闭环设计。

传统的 RAG（检索增强生成）系统往往停留在概念演示阶段，文档上传后需要手动处理、索引重建也缺乏可视化反馈。而 Langchain-Chatchat 提供了完整的 Web UI，用户只需拖拽上传 PDF 或 Word 文件，后台便会自动完成以下动作：

使用Unstructured工具提取原始文本；
采用递归字符分割策略进行分块（支持自定义 chunk_size 和 overlap）；
调用本地中文嵌入模型（如 m3e-base 或 bge-small-zh）生成向量；
存入 Chroma 或 FAISS 等轻量级向量数据库；
在前端提供知识库管理界面，支持增删改查。

整个过程对非技术人员友好，真正实现了“上传即可用”。

from langchain_community.document_loaders import UnstructuredFileLoader from langchain_text_splitters import RecursiveCharacterTextSplitter from langchain_community.embeddings import HuggingFaceEmbeddings from langchain_community.vectorstores import Chroma # 加载并切分文档 loader = UnstructuredFileLoader("公司制度手册.pdf") docs = loader.load() text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50) split_docs = text_splitter.split_documents(docs) # 向量化并持久化 embeddings = HuggingFaceEmbeddings(model_name="moka-ai/m3e-base") vectorstore = Chroma.from_documents( documents=split_docs, embedding=embeddings, persist_directory="./chroma_db" ) # 测试检索效果 retriever = vectorstore.as_retriever(search_kwargs={"k": 3}) results = retriever.invoke("年假怎么申请？") for r in results: print(r.page_content)

这段代码看似简单，却是整个系统的基石。值得注意的是，m3e-base这类专为中文优化的 Sentence-BERT 模型，在语义匹配准确率上远超直接使用英文模型翻译后再比对的方式。这也是为什么 Langchain-Chatchat 能在中文问答任务中表现优异的关键之一。

更重要的是，这些逻辑已经被封装进api/knowledge_base模块中，普通用户根本不需要写一行代码即可完成知识入库。

容器化不是可选项，而是必选项

试想一下这样的场景：你终于配置好了 Python 环境、安装了所有依赖包、下载了模型文件，结果运行时提示某个库版本冲突；或者换一台机器部署时，又得重复一遍繁琐流程……这类问题在 AI 项目中太常见了。

这就是为什么我坚持认为——对于 Langchain-Chatchat 这种多服务架构的应用，必须使用 Docker Compose。

它带来的不只是“方便”，而是工程层面的根本性提升：

环境一致性：开发、测试、生产环境完全一致，避免“在我电脑上能跑”的尴尬。
依赖隔离：FastAPI、Streamlit、vLLM 各自运行在独立容器中，互不影响。
资源控制：可通过deploy.resources明确指定 GPU、内存等硬件分配。
数据持久化：通过 volume 映射宿主机目录，确保知识库和模型缓存不会因容器重启丢失。

来看一个典型的docker-compose.yml配置：

version: '3.8' services: api: image: chatchat-api:0.2.4 container_name: chatchat_api ports: - "7861:7861" volumes: - ./configs:/app/configs - ./knowledge_base:/app/knowledge_base - ./models:/app/models environment: - LOG_LEVEL=INFO depends_on: - model networks: - chatchat-net webui: image: chatchat-web:0.2.4 container_name: chatchat_web ports: - "8501:8501" depends_on: - api networks: - chatchat-net model: image: lmstudio-community/ggml-qwen1_8-chat:latest container_name: qwen_model ports: - "8080:8080" deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [gpu] environment: - CUDA_VISIBLE_DEVICES=0 networks: - chatchat-net networks: chatchat-net: driver: bridge

这个配置文件定义了三个核心服务：

api是系统的中枢，负责文档处理、向量检索和调用 LLM 接口；
webui提供基于 Streamlit 的交互界面，访问http://localhost:8501即可操作；
model运行 Qwen 的 GGUF 格式模型，利用 NVIDIA GPU 实现推理加速。

只需要一条命令：

docker compose up -d

所有服务便会在后台自动拉取镜像、创建容器并按依赖顺序启动。停止服务也同样简单：

docker compose down

整个过程无需关心 Python 版本、CUDA 驱动或任何环境变量设置，真正做到了“开箱即用”。

典型架构与工作流：从文档到答案的完整闭环

下图展示了 Langchain-Chatchat 在 Docker 编排下的典型架构：

+------------------+ +-------------------+ | 用户浏览器 |<--->| Web UI (Streamlit)| +------------------+ +-------------------+ ↑ HTTP ↓ +------------------+ | API Server | | (FastAPI + LangChain) | +------------------+ ↗ ↖ 文档分块/向量化 检索调用 ↓ ↑ +----------------+ +-------------+ | 知识库存储 | | 向量数据库 | | (本地文件系统) | | (Chroma/FAISS)| +----------------+ +-------------+ ↑ | Embedding API +------------------+ | Embedding 模型 | | (m3e/bge等) | +------------------+ ↑ | LLM Inference +------------------+ | 本地大模型服务 | | (ChatGLM/Qwen等) | +------------------+

整个系统运行在一个物理节点或局域网服务器上，形成封闭的数据流环路。所有的信息处理都在内网完成，彻底杜绝数据外泄风险。

具体的工作流程如下：

初始化部署
克隆项目仓库，准备好docker-compose.yml，并将所需模型文件（如qwen-7b-gguf.bin、m3e-base）放入models/目录。执行up命令后，各服务依次启动。
知识库构建
打开 Web 页面，进入“知识库管理”模块，上传企业内部文档（如员工手册、产品说明书）。系统会自动触发解析 → 分块 → 向量化 → 入库全流程。
问答交互
用户提问：“新员工试用期多久？”
系统将其编码为向量，在向量库中搜索最相关的段落，拼接成 Prompt 发送给本地 LLM，最终返回结构化回答。
持续维护
当政策更新时，只需重新上传最新版文档并重建索引即可。也可设置定时任务自动同步共享盘中的资料。

实战建议：如何高效落地这套方案？

尽管整体流程已经足够简化，但在真实环境中仍有一些细节需要注意，否则可能影响体验甚至导致失败。

✅ 硬件资源配置建议

内存：至少 16GB，推荐 32GB 以上。LLM 推理本身就很吃内存，加上向量搜索和前端服务，并发稍高就容易 OOM。
GPU：若希望获得良好响应速度（<3秒），建议配备 NVIDIA 显卡（≥8GB 显存），用于加载量化后的 LLM 模型（如 Q4_K_M 级别）。
存储：使用 SSD 固态硬盘，尤其是当知识库规模超过 10GB 时，I/O 性能直接影响检索延迟。

✅ 模型选择经验谈

类型	推荐模型	说明
Embedding	`moka-ai/m3e-base`	中文场景下表现稳定，速度快，适合大多数企业知识库
`BAAI/bge-small-zh-v1.5`	准确率更高，但略慢于 m3e
LLM	`Qwen-7B-GGUF (Q4)`	支持 llama.cpp 加载，可在消费级显卡运行
`ChatGLM3-6B`	官方支持好，中文理解强，但显存占用较高