AutoDL部署Langchain-Chatchat 0.3.1实战指南-深圳市維司達科技有限公司

AutoDL部署Langchain-Chatchat实战指南

在企业知识管理日益智能化的今天，如何让AI真正理解并回答专属领域的复杂问题，成了技术落地的关键一环。市面上不少SaaS类问答工具虽然便捷，但数据上传到云端始终存在隐私泄露风险。于是，越来越多团队开始转向本地化部署的知识库系统——既能利用大模型的强大语言能力，又能确保敏感文档不离域。

Langchain-Chatchat 正是这一方向上的佼佼者。它基于 LangChain 框架构建，支持将 PDF、Word、TXT 等私有文档转化为可检索的知识库，并通过大型语言模型（LLM）实现自然语言问答。整个流程从文本解析、向量化存储到语义推理全部在本地完成，完美兼顾了智能性与安全性。

本文将以Langchain-Chatchat v0.3.1为例，带你一步步在 AutoDL 云平台上完成完整部署。我们不仅会搭建核心服务，还会整合 Xinference 实现模型统一调度，最终让你通过浏览器就能和自己的“专属AI”对话。

开始前的准备：选择合适的硬件环境

一切的前提，是有一台性能足够的 GPU 服务器。推荐使用 AutoDL 平台，其按小时计费模式非常适合实验和调试。

注册登录后，在控制台创建实例时建议配置如下：

GPU型号：至少一张 RTX 3090 或更高（如双卡 4090 更佳）
区域选择：“西北B区”通常国内访问延迟更低
镜像系统：PyTorch 2.3.0 + Python 3.11 + CUDA 12.1（Ubuntu 22.04）

⚠️ 注意：v0.3.x 版本对依赖版本较敏感，避免使用旧版 Python 或低版本 PyTorch，否则后续安装极易出错。

实例启动后，可通过 JupyterLab 或 SSH 连接进行操作。进入系统第一件事就是创建一个存放数据的工作目录：

mkdir -p /root/data

由于项目代码和模型资源大多托管于 GitHub 和 Hugging Face，下载速度常受限于网络。好在 AutoDL 提供了“学术加速”功能，能显著提升境外资源拉取效率。

在 JupyterLab 终端执行以下命令开启代理：

source /etc/network_turbo

如果后续遇到 pip 安装失败或连接超时，可以临时关闭代理试试：

unset http_proxy && unset https_proxy

另外，首次使用 Conda 需要初始化 shell 支持：

source ~/.bashrc conda init

重启终端即可正常使用conda命令管理虚拟环境。

构建独立运行环境：为什么必须用 Conda？

我见过太多初学者直接在 base 环境里折腾，结果各种包冲突导致“越修越乱”。Langchain-Chatchat 对 Python 和依赖库版本要求严格，稍有不慎就会报错。因此，强烈建议为项目创建专用虚拟环境。

切换到工作目录并克隆源码：

cd /root/data git clone https://github.com/chatchat-space/Langchain-Chatchat.git cd Langchain-Chatchat

若提示fatal: unable to access，优先检查是否已启用学术加速；仍失败可尝试更换网络或稍后再试。

接着创建 Python 3.11 的 Conda 环境（这是官方推荐版本）：

conda create -n chatchat_py311 python=3.11 conda activate chatchat_py311

激活成功后，命令行前缀应显示(chatchat_py311)，表示当前处于隔离环境中。

现在开始安装主体包。从 v0.3.0 起，Langchain-Chatchat 已支持 pip 直接安装，极大简化了部署流程。

如果你计划使用 Xinference 来统一管理 LLM 和 Embedding 模型，推荐安装带[xinference]扩展依赖的版本：

pip install langchain-chatchat[xinference] -U -i https://pypi.tuna.tsinghua.edu.cn/simple

这个清华源在国内非常稳定，能有效避免因网络问题中断安装。

当然，也可以先装基础版验证环境是否正常：

pip install langchain-chatchat -U -i https://pypi.tuna.tsinghua.edu.cn/simple

模型服务分离：为何要把 Xinference 单独部署？

很多人可能会问：为什么不直接让 Langchain-Chatchat 自己加载模型？答案是——灵活性与稳定性。

Xinference 是一个专为本地大模型设计的推理框架，支持 vLLM、transformers、llama.cpp 等多种后端引擎，还能统一管理 LLM、Embedding、Reranker 等不同类型的模型。更重要的是，它可以提供标准化 API 接口，使得前端应用无需关心底层实现细节。

所以，最佳实践是：Langchain-Chatchat 只负责业务逻辑，Xinference 负责模型推理。

为此，我们再新建一个独立环境专门跑 Xinference：

conda create -n xinference_env python=3.11 conda activate xinference_env

然后安装全功能版本：

pip install "xinference[all]" -i https://pypi.tuna.tsinghua.edu.cn/simple

但这里有个常见坑点：llama-cpp-python编译失败。

这是因为 AutoDL 默认的 GCC 版本为 11.4.0，而该库对 gcc > 10 存在兼容性问题。解决方法是降级编译器工具链：

# 添加 conda-forge 源 conda config --add channels conda-forge # 安装 gcc-10 工具链 conda install gxx_linux-64=10 # 再次尝试安装 pip install "xinference[all]" -i https://pypi.tuna.tsinghua.edu.cn/simple

只要没有红色报错信息，且能正常导入模块就算成功。

接下来设置模型存储路径，防止占用系统盘空间：

export XINFERENCE_HOME=/root/autodl-tmp/xinference export XINFERENCE_MODEL_SRC=modelscope # 使用魔搭社区作为默认模型源

最后启动服务并开放外网访问：

xinference-local --host 0.0.0.0 --port 9997

此时可在浏览器中访问http://<your_ip>:9997查看 Web UI（需配置 SSH 映射端口），方便直观地管理模型。

加载关键模型：GLM4 与 BGE 如何协同工作？

知识库问答的核心在于两个环节：
一是理解用户问题并查找相关段落（检索阶段），
二是基于查到的内容生成准确回答（推理阶段）。

这就需要两个关键模型配合：

Embedding 模型：用于将文本转换为向量，实现语义相似度匹配
LLM 大语言模型：负责最终的答案生成

我们选用目前中文表现优异的组合：

中文 Embedding 模型：bge-large-zh-v1.5

这是由智源研究院发布的高性能中文嵌入模型，在多个中文 NLP 任务中表现领先。

在新终端中激活xinference_env环境，运行：

xinference launch --model-name bge-large-zh-v1.5 --model-type embedding

该模型会自动从 ModelScope 下载，用于后续文档切分后的向量化处理。

大语言模型：GLM4-Chat-9B

GLM4 是智谱推出的最新一代对话模型，参数量达 90 亿，在指令遵循、多轮对话等方面表现出色。

为了提升推理速度，我们采用 vLLM 引擎加载：

xinference launch \ --model-engine vllm \ --model-name glm4-chat \ --size-in-billions 9 \ --model-format pytorch \ --quantization none

🕒 首次下载耗时较长（约 15–30 分钟），请耐心等待。期间可通过日志观察进度。

加载完成后，执行以下命令查看运行状态：

xinference list

输出类似：

NAME TYPE MODEL_FORMAT QUANTIZATION REPLICAS UID glm4-chat llm pytorch none 1 gpu-xxxxx bge-large... embedding pytorch None 1 emb-xxxxx

记下这两个模型的 UID，稍后会在 Langchain-Chatchat 中引用。

回到主环境：连接前后端服务

现在回到最初的chatchat_py311环境：

conda deactivate conda activate chatchat_py311

验证 CLI 工具是否可用：

chatchat --help

你应该看到包含init、start、kb等子命令的帮助菜单。

接下来初始化配置，告诉 Langchain-Chatchat 应该调用哪个模型：

# 设置默认 LLM chatchat init -l glm4-chat # 若未自动识别，可手动指定 UID # chatchat init --llm-model-glm4-chat gpu-xxxxx # 设置默认 Embedding 模型 chatchat init -e bge-large-zh-v1.5

这些设置会被写入configs/model_config.json文件，后续无需重复操作。

你还可以选择初始化内置测试知识库来快速验证流程：

chatchat kb -r

不过可能会遇到如下错误：

FileExistsError: [Errno 17] File exists: '/root/nltk_data/tokenizers'

原因是 nltk 尝试创建目录时发现路径已被占用。解决方案很简单：

mkdir -p /root/nltk_data/tokenizers

然后再执行一次即可。当然，这一步非必需，你可以跳过，默认知识库不影响后续上传自己的文档。

一切就绪后，启动完整服务：

chatchat start -a

参数-a表示同时启动 API（FastAPI）和 Web UI（Streamlit）。默认端口为：
- API 服务：8000
- Web UI：8501

启动成功后你会看到类似提示：

INFO: Uvicorn running on http://0.0.0.0:8000 INFO: Started reloader process [xxx] using statreload ... Welcome to Langchain-Chatchat!

如何在本地访问 Web 界面？

由于 AutoDL 实例位于云端，我们需要通过 SSH 隧道将服务映射回本地。

在本地电脑打开终端，输入以下命令（替换为你的实际连接信息）：

ssh -p <port> root@connect.westc.gpuhub.com \ -CNg -L 8501:127.0.0.1:8501 -L 8000:127.0.0.1:8000 \ -o StrictHostKeyChecking=no

保持此连接不断开。

然后打开浏览器访问：

👉 http://127.0.0.1:8501

你会看到 Langchain-Chatchat 的图形化界面，主要功能包括：

📁 支持上传 PDF、TXT、DOCX 等格式文档
🔍 自动完成文档切分、清洗、向量索引构建
💬 多轮对话式问答体验
⚙️ 提供模型切换与参数调节面板

试着上传一份公司产品说明书 PDF，然后提问：

“我们的旗舰产品支持哪些操作系统？”

系统会自动检索相关内容，并结合上下文生成结构化回答。响应时间取决于模型加载状态与 GPU 性能，一般在几秒内完成。

实战经验总结：几个值得优化的方向

这套方案已经足够支撑大多数中小规模的知识库场景，但在实际使用中仍有优化空间：

性能优化：显存不够怎么办？

GLM4-Chat-9B 全精度模型需要约 18GB 显存。如果你只有单张 3090（24GB），勉强够用；但若想部署更多模型或并发请求，建议使用量化版本，例如：

--quantization q4_0

这样可将显存占用降至 10GB 以内，大幅提升部署灵活性。

持久化存储：别让模型每次重装

AutoDL 的/root目录属于临时空间，实例重启后内容可能丢失。建议将模型目录挂载到持久化磁盘，比如：

export XINFERENCE_HOME=/mnt/data/xinference_models

并将知识库存储路径也指向同一位置。

多用户共享：如何让更多人使用？

目前 Web UI 仅限本地访问。若要在团队内部共享，可配合 Nginx 做反向代理，并启用 HTTPS 认证，实现安全内网访问。

检索更准：引入 Reranker 模块

目前仅靠 Embedding 向量检索，有时会出现“相关但不精准”的结果。可以进一步接入bge-reranker-v2模型，在初筛后做二次排序，显著提升召回准确率。

Langchain-Chatchat 正在成为国产本地知识库系统的标杆之作。它把复杂的 LangChain 流程封装得足够简单，又保留了高度可扩展性。结合 AutoDL 的强大算力与 Xinference 的灵活调度，即使是刚入门的新手，也能在几个小时内完成完整部署。

更重要的是，这种“私有化+本地化”的架构，为企业级 AI 应用提供了真正可行的落地路径——不必牺牲数据安全，也能拥有智能问答能力。

当你第一次看到 AI 准确回答出“这份三年前的合同条款该怎么解读”时，那种感觉，真的不一样。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

AutoDL部署Langchain-Chatchat 0.3.1实战指南