RAGFlow+Ollama：30分钟搭建本地AI问答系统，敏感数据绝不外传！-深圳市維司達科技有限公司

本文介绍了如何利用开源的RAGFlow和Ollama搭建一个完全本地运行的AI问答系统。该系统能够解析PDF、Word、Excel等多种文档格式，包括扫描件和表格，并支持引用溯源。用户只需本地部署，无需API Key，即可快速搭建，30分钟即可运行。文章详细阐述了环境准备、模型配置、知识库创建和文档上传等步骤，并提供了实际测试效果和常见问题解答。该方案适合企业内部知识库、个人学习笔记和项目文档管理等场景，但不太适合文档量极大或对速度要求极高的场景。

你有没有过这种场景：手里一堆 PDF 文档、产品手册、技术文档，想找某个细节，翻了半天翻不到，恨不得有个 AI 帮你直接回答。

ChatGPT 能做，但你得把文档传上去——公司内部资料、客户数据，敢传吗？

今天介绍一个完全本地运行的方案：RAGFlow + Ollama。文档丢进去就能问答，数据全程不出你的电脑，30 分钟就能跑通。

RAGFlow 是什么？为什么选它

RAGFlow 是一个开源的 RAG（检索增强生成）引擎，GitHub 上 78K+ star，专门做文档解析 + 知识问答这件事。

和之前介绍过的 FastGPT 不同，RAGFlow 的核心优势在文档解析能力：

对比项	RAGFlow	FastGPT
文档解析	DeepDoc 引擎，支持 OCR、表格识别、版面分析	基础文本切片
PDF 处理	扫描件、带表格的 PDF 都能解析	主要处理纯文本 PDF
分块可视化	可以看到文档怎么被切分的，支持手动调整	不可见
引用溯源	回答时标注出处，点击可跳转原文	支持
部署复杂度	Docker 一键部署	Docker 一键部署

简单说：如果你的文档有很多表格、图表、扫描件，RAGFlow 是目前开源方案里解析效果最好的。

整体架构

先理解一下我们要搭的东西：

你的文档（PDF/Word/Excel） ↓ RAGFlow（文档解析 + 分块 + 检索） ↓ Ollama（本地大模型，负责生成回答） ↓ 浏览器里直接问答

三个关键组件：

Ollama：跑本地大模型（Qwen3.5 负责回答问题）
RAGFlow：解析文档、切分成知识块、检索相关内容
Embedding 模型：把文档和问题转成向量用于匹配（用 bge-m3）

全部跑在你自己的电脑上，不需要任何 API Key。

第一步：确认环境

硬件要求：

内存：16GB 以上（RAGFlow 本身比较吃内存）
硬盘：至少 30GB 可用空间
显卡：有最好（加速推理），没有也能跑（CPU 模式）

软件要求：

Docker Desktop 已安装并运行
Ollama 已安装（如果还没装，参考我之前的 Ollama 入门文章）

# 确认 Docker 正常docker --version# 确认 Ollama 正常ollama --version

第二步：准备 Ollama 模型

我们需要两个模型：一个负责回答问题的对话模型，一个负责文档向量化的Embedding 模型。

# 1. 对话模型：Qwen3.5 9B（约 6.6GB）ollama pull qwen3.5:9b# 2. Embedding 模型：bge-m3（约 1.2GB，中英文效果都好）ollama pull bge-m3

bge-m3 处理中文效果非常好，配合中文文档知识库是最优选择。

拉完之后确认一下：

ollama list# 应该能看到 qwen3.5:9b 和 bge-m3

重要：确保 Ollama 监听所有网络接口，这样 Docker 里的 RAGFlow 才能访问到：

# Linux/macOS：设置环境变量后重启 Ollamaexport OLLAMA_HOST=0.0.0.0:11434ollama serve# Windows：在系统环境变量中添加 OLLAMA_HOST=0.0.0.0:11434# 然后重启 Ollama 应用

第三步：Docker 部署 RAGFlow

RAGFlow 官方提供了 Docker Compose 一键部署，非常方便。

# 1. 克隆 RAGFlow 仓库git clone https://github.com/infiniflow/ragflow.gitcd ragflow/docker# 2. 使用轻量版镜像启动（推荐，体积小很多）docker compose -f docker-compose.yml up -d

首次启动会拉取镜像，大概需要 5-10 分钟（取决于网速）。

# 查看启动状态docker compose logs -f# 看到类似这行就说明启动成功：# ragflow-server | INFO: Application startup complete.

启动成功后，打开浏览器访问：http://localhost（默认 80 端口）

首次访问需要注册一个账号（纯本地，不会发到任何地方），注册完登录进去。

第四步：配置模型

配置对话模型：

点击右上角头像 →模型供应商
找到Ollama，点击添加
填写配置：

模型名称：qwen3.5:9b
模型类型：Chat
基础 URL：http://host.docker.internal:11434（Docker 访问宿主机）

Linux 用户如果host.docker.internal不生效，改用宿主机实际 IP，比如http://192.168.1.100:11434

配置 Embedding 模型：

同样在模型供应商页面
再添加一个 Ollama 模型：

模型名称：bge-m3
模型类型：Embedding
基础 URL：http://host.docker.internal:11434

配完之后，去系统模型设置里把默认的对话模型和 Embedding 模型分别选成刚才配的两个。

第五步：创建知识库

模型配好了，开始建知识库。

左侧菜单点知识库→新建知识库
起个名字，比如"产品文档库"
Embedding 模型选bge-m3
分块方法这里是关键，RAGFlow 提供了好几种：

分块方法	适合场景
General	通用文档，自动识别段落
Q&A	FAQ 格式的文档
Table	表格为主的文档
Paper	学术论文
Book	书籍、长文档
Manual	产品手册、技术文档

大多数情况选General就行，如果文档里表格很多可以试试Manual。

点击确认，知识库就建好了

第六步：上传文档

进入刚建好的知识库，点击上传文件。

支持的格式非常丰富：

PDF（包括扫描件）
Word（.docx）
Excel（.xlsx）
PPT（.pptx）
TXT / Markdown
图片（会 OCR 识别）

我这里传了一份 40 页的 PDF 产品手册做测试。

上传后点击开始解析，RAGFlow 会自动进行：

版面分析（识别标题、正文、表格、图片）
OCR 识别（如果是扫描件）
表格结构识别
文本分块

这一步是 RAGFlow 的核心竞争力。解析完成后，你可以点进去看每个分块的内容：

每个块是怎么切的
表格有没有被正确识别
如果切得不好，可以手动调整（这个功能其他工具基本没有）

解析速度取决于文档复杂度，一份 40 页的 PDF 大概需要 2-5 分钟。扫描件会更慢一些，因为要跑 OCR。

第七步：创建对话助手

知识库建好、文档解析完，最后一步是建一个问答助手。

左侧菜单点对话→创建助手
配置：

助手名称：随便起
对话模型：选qwen3.5:9b
关联知识库：选刚才建好的知识库

提示词可以根据场景调整，比如：

你是一个专业的文档问答助手。请根据知识库中的内容回答用户的问题。如果知识库中没有相关信息，请明确告知用户，不要编造答案。回答时请标注信息来源。

点击确认，助手就创建好了

实测效果

我用一份产品技术手册测试了几个问题：

问题 1：“这个产品支持哪些通信协议？”

RAGFlow 准确找到了手册中"通信接口"章节的内容，列出了支持的协议，还标注了出自第 12 页。点击引用可以直接看到原文段落。

问题 2：“安装环境要求是什么？温度和湿度范围？”

从手册的安装章节中精准定位到表格数据，温度 -20°C ~ 60°C，湿度 5% ~ 95%，回答准确。

问题 3：“和竞品 A 相比有什么优势？”（手册里没有的内容）

模型回答"根据现有文档资料，未找到与竞品 A 的对比信息"——没有瞎编，这很重要。

整体感受：

检索准确率高，尤其是表格内容的提取比 FastGPT 好不少
引用溯源很实用，知道答案从哪来的，可以验证
中文效果不错，bge-m3 + Qwen3.5 这个组合很搭

常见问题

RAGFlow 启动后访问不了？

# 检查容器状态docker compose ps# 确认所有容器都是 running 状态# 如果 ragflow-server 在 restarting，查看日志：docker compose logs ragflow-server

最常见的原因是内存不足，RAGFlow 默认需要约 8GB 内存。可以在docker-compose.yml里调小 Elasticsearch 的内存：

environment: - "ES_JAVA_OPTS=-Xms512m -Xmx512m" # 默认是 1g，改小

文档解析失败？

确认文件格式支持（PDF、Word、Excel 等）
文件不要太大，单文件建议不超过 50MB
扫描件 PDF 需要更长的解析时间，耐心等

回答质量不好？

先检查文档分块是否合理，点进知识库查看每个块
调整分块方法，比如表格多的文档换成 Manual 或 Table
适当增加检索返回的分块数量（默认 6 个，可以调到 8-10）

资源占用参考

在我的笔记本上（i7 + 16GB 内存 + RTX 3060 12GB）实测资源占用：

组件	内存占用	显存占用
RAGFlow（Docker 全套）	~6GB	—
Ollama + Qwen3.5 9B	~2GB	~7GB
Ollama + bge-m3	~1GB	~1GB
合计	~9GB	~8GB

16GB 内存 + 8GB 显存是比较舒服的配置。如果内存只有 8GB 会比较吃力，建议把 Qwen3.5 换成 4B 或 2B 版本。

总结

RAGFlow + Ollama 这套方案，核心优势就三个：

完全本地运行，数据不出你的电脑，适合处理敏感文档
文档解析能力强，扫描件、表格、复杂排版都能处理
引用溯源，回答有据可查，不是黑箱

适合的场景：

企业内部知识库（产品手册、技术文档、规章制度）
个人学习笔记问答（论文、教材、读书笔记）
项目文档管理（需求文档、接口文档、会议纪要）

不适合的场景：

文档量特别大（上万份），需要更专业的企业级方案
对回答速度要求极高（本地模型推理有延迟）

整个搭建过程，快的话 30 分钟就能跑通。如果你有一堆文档想让 AI 帮你问答，强烈建议试试这个方案。

假如你从2026年开始学大模型，按这个步骤走准能稳步进阶。

接下来告诉你一条最快的邪修路线，

3个月即可成为模型大师，薪资直接起飞。

阶段1:大模型基础

阶段2:RAG应用开发工程

阶段3:大模型Agent应用架构

阶段4:大模型微调与私有化部署

配套文档资源+全套AI 大模型学习资料，朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇

RAGFlow+Ollama：30分钟搭建本地AI问答系统，敏感数据绝不外传！

RAGFlow 是什么？为什么选它

整体架构

第一步：确认环境

第二步：准备 Ollama 模型

第三步：Docker 部署 RAGFlow

第四步：配置模型

第五步：创建知识库

第六步：上传文档

第七步：创建对话助手

实测效果

常见问题

RAGFlow 启动后访问不了？

文档解析失败？

回答质量不好？

资源占用参考

总结

配套文档资源+全套AI 大模型学习资料，朋友们如果需要可以微信扫描下方二维码免费领取【`保证100%免费`】👇👇

Bub框架：基于Tape与插件化的AI智能体开发实战

MCP 2026多模态融合的“幽灵瓶颈”：未被公开的时钟域异步误差放大效应——航天级同步算法下放至边缘设备的3步降噪法

Python的enter泄漏预防

Umi-OCR：免费开源的离线文字识别工具，3分钟上手高效截图识别

Windows安卓应用安装革命：APK Installer带你跨越生态鸿沟

微积分中的不定型与洛必达法则详解

RAGFlow 是什么？为什么选它

整体架构

第一步：确认环境

第二步：准备 Ollama 模型

第三步：Docker 部署 RAGFlow

第四步：配置模型

第五步：创建知识库

第六步：上传文档

第七步：创建对话助手

实测效果

常见问题

RAGFlow 启动后访问不了？

文档解析失败？

回答质量不好？

资源占用参考

总结

配套文档资源+全套AI 大模型 学习资料，朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇

Bub框架：基于Tape与插件化的AI智能体开发实战

MCP 2026多模态融合的“幽灵瓶颈”：未被公开的时钟域异步误差放大效应——航天级同步算法下放至边缘设备的3步降噪法

Python的__enter__泄漏预防

Umi-OCR：免费开源的离线文字识别工具，3分钟上手高效截图识别

Windows安卓应用安装革命：APK Installer带你跨越生态鸿沟

微积分中的不定型与洛必达法则详解

配套文档资源+全套AI 大模型学习资料，朋友们如果需要可以微信扫描下方二维码免费领取【`保证100%免费`】👇👇

Python的enter泄漏预防