Dify工作流集成OCR：构建智能文档处理管道-深圳市維司達科技有限公司

Dify工作流集成OCR：构建智能文档处理管道

在数字化转型的浪潮中，企业每天需要处理海量的纸质文档、扫描件和图像文件。如何高效地将这些非结构化数据转化为可编辑、可检索的文本信息，成为提升自动化水平的关键一环。光学字符识别（OCR）技术正是解决这一问题的核心工具。通过OCR，系统能够“看懂”图片中的文字内容，为后续的信息提取、知识管理与智能分析打下基础。

然而，传统的OCR方案往往依赖昂贵的商业软件或高性能GPU环境，难以在轻量级场景中部署。本文将介绍一种基于CRNN模型的高精度通用OCR服务，支持中英文识别，具备WebUI与REST API双模式访问能力，并专为CPU环境优化，平均响应时间低于1秒。更重要的是，我们将演示如何将其无缝集成到Dify 工作流引擎中，打造一个端到端的智能文档处理管道——从图像上传、文字识别到结构化输出，全流程自动化。

👁️ 高精度通用 OCR 文字识别服务 (CRNN版)

📖 项目简介

本OCR服务镜像基于 ModelScope 开源平台的经典CRNN（Convolutional Recurrent Neural Network）模型构建。CRNN 是一种结合卷积神经网络（CNN）与循环神经网络（RNN）的混合架构，特别适用于序列识别任务，在文字识别领域表现卓越。

相比于传统轻量级模型（如MobileNet+CTC），CRNN 在以下方面具有显著优势：

更强的上下文建模能力：RNN层能捕捉字符间的时序关系，对模糊、粘连或手写体文字更具鲁棒性。
更高的中文识别准确率：针对汉字复杂的结构特征进行了专项训练，尤其擅长处理发票、表格等含中文字段的文档。
无需字符分割：采用端到端的序列识别方式，避免了传统方法中因字符切分错误导致的整体失败。

该服务已集成Flask 框架提供的 WebUI 界面和标准 RESTful API 接口，并内置了多项图像预处理算法，确保即使输入图像质量较差（如低分辨率、阴影干扰），也能获得稳定可靠的识别结果。

💡 核心亮点
模型升级：由 ConvNextTiny 迁移至 CRNN，中文识别准确率提升约 35%，尤其在复杂背景和手写体场景下表现突出。
智能预处理：集成 OpenCV 图像增强模块，自动执行灰度化、二值化、对比度增强、尺寸归一化等操作，显著改善低质量图像的可读性。
极致轻量化：完全基于 CPU 推理，无 GPU 依赖，适合边缘设备或资源受限环境部署。
双模交互：同时提供可视化 Web 操作界面和标准化 API 接口，满足不同使用场景需求。

🚀 使用说明：本地启动与功能验证

1. 启动 OCR 服务

假设你已获取该 OCR 镜像（可通过 Docker 或 InsCode 平台部署），启动后可通过平台提供的 HTTP 访问按钮进入 WebUI 页面。

# 示例：Docker 启动命令（若自行部署） docker run -p 5000:5000 ocr-crnn-service:latest

服务默认监听http://localhost:5000，打开浏览器即可访问图形化界面。

2. WebUI 操作流程

在页面左侧点击“上传图片”，支持常见格式如 JPG、PNG、BMP。
支持多种真实场景图像：发票、身份证、合同、路牌、书籍扫描件等。
点击“开始高精度识别”按钮，系统将自动完成：
图像预处理（去噪、增强、尺寸调整）
文本区域检测（基于滑动窗口+阈值分割）
CRNN 模型推理（字符序列识别）
右侧列表实时显示识别出的文字内容及其置信度分数。

📌 提示：对于倾斜严重的图像，建议先进行手动矫正；未来版本将加入自动旋转校正功能。

🔧 API 接口详解：实现程序化调用

为了便于集成到自动化系统中，该服务提供了标准的 REST API 接口，支持 JSON 格式请求与响应。

API 地址与方法

Endpoint:/ocr
Method:POST
Content-Type:multipart/form-data

请求参数

| 参数名 | 类型 | 必填 | 说明 | |--------|------|------|------| | image | file | 是 | 待识别的图像文件 |

响应格式（JSON）

{ "success": true, "results": [ { "text": "发票代码：144031876543", "confidence": 0.987 }, { "text": "开票日期：2023年8月15日", "confidence": 0.962 } ], "total_time": 0.843 }

Python 调用示例

import requests def ocr_recognize(image_path): url = "http://localhost:5000/ocr" with open(image_path, 'rb') as f: files = {'image': f} response = requests.post(url, files=files) if response.status_code == 200: result = response.json() for item in result['results']: print(f"Text: {item['text']} | Confidence: {item['confidence']:.3f}") print(f"Total Time: {result['total_time']:.3f}s") else: print("Request failed:", response.text) # 调用示例 ocr_recognize("invoice.jpg")

✅ 输出示例：
Text: 发票代码：144031876543 | Confidence: 0.987 Text: 开票日期：2023年8月15日 | Confidence: 0.962 Total Time: 0.843s

此接口可在批处理脚本、自动化流水线或第三方系统中直接调用，实现无人值守的批量文档识别。

⚙️ 图像预处理机制解析

OCR 的准确性高度依赖于输入图像的质量。为此，我们在推理前加入了多阶段的自动图像预处理流程，显著提升了在实际场景中的鲁棒性。

预处理步骤分解

色彩空间转换
将彩色图像转为灰度图，减少通道冗余，加快后续处理速度。python gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
自适应直方图均衡化
增强局部对比度，尤其适用于光照不均的扫描件。python clahe = cv2.createCLAHE(clipLimit=2.0, tileGridSize=(8,8)) enhanced = clahe.apply(gray)
动态二值化
使用 Otsu 算法自动确定最佳阈值，分离前景文字与背景。python _, binary = cv2.threshold(enhanced, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
尺寸归一化
统一缩放到固定高度（如 32px），保持宽高比不变，适配 CRNN 输入要求。
边缘填充（Padding）
对窄字符区域补白，防止信息丢失，提升识别稳定性。

这些处理均在内存中链式执行，总耗时控制在100ms 内，几乎不影响整体响应速度。

🔄 集成 Dify 工作流：构建智能文档处理管道

Dify 是一个开源的 LLM 应用开发平台，支持通过可视化工作流编排 AI 能力。我们将 OCR 服务作为外部工具接入 Dify，实现“图像 → 文本 → 结构化信息”的完整闭环。

场景设定：自动提取发票关键字段

目标：上传一张发票图片，自动识别并提取“发票代码”、“金额”、“开票日期”等结构化信息。

实现步骤

步骤 1：在 Dify 中创建自定义工具（Custom Tool）

进入 Dify 控制台 → Tools → Create Custom Tool

填写基本信息： - Name:Invoice OCR Extractor- Description:Extract structured data from invoice images using CRNN-based OCR

步骤 2：定义输入输出参数

Input Schema (JSON)

{ "type": "object", "properties": { "image_url": { "type": "string", "description": "URL of the invoice image" } }, "required": ["image_url"] }

Output Schema

{ "type": "object", "properties": { "invoice_code": {"type": "string"}, "issue_date": {"type": "string"}, "total_amount": {"type": "string"} } }

步骤 3：编写工具执行逻辑（Python Script）

import requests import re def tool_invoke(input_value): image_url = input_value['image_url'] # Step 1: 下载图片 resp = requests.get(image_url) with open("/tmp/invoice.jpg", "wb") as f: f.write(resp.content) # Step 2: 调用本地 OCR API ocr_url = "http://host.docker.internal:5000/ocr" with open("/tmp/invoice.jpg", "rb") as f: files = {'image': f} ocr_response = requests.post(ocr_url, files=files).json() if not ocr_response['success']: return {"error": "OCR failed"} # Step 3: 提取文本并结构化 full_text = "\n".join([item['text'] for item in ocr_response['results']]) # 使用正则提取关键字段 code_match = re.search(r"发票代码[:：\s]+(\d+)", full_text) date_match = re.search(r"开票日期[:：\s]+(\d{4}年\d{1,2}月\d{1,2}日)", full_text) amount_match = re.search(r"合计金额[:：\s¥]+([0-9]+\.\d{2})", full_text) return { "invoice_code": code_match.group(1) if code_match else "", "issue_date": date_match.group(1) if date_match else "", "total_amount": amount_match.group(1) if amount_match else "" }

⚠️ 注意事项： - 使用host.docker.internal可让容器内 Dify 访问宿主机上的 OCR 服务（需 Docker 支持）。 - 实际生产环境中建议将 OCR 服务也容器化并通过内部网络通信。

步骤 4：创建工作流（Workflow）

在 Dify 中新建 Workflow，连接以下节点：

User Input→ 接收用户上传的发票图片 URL
Tool Node→ 调用Invoice OCR Extractor
LLM Node→ 将结构化数据插入模板生成摘要报告

例如，LLM 提示词可设计为：

你是一个财务助手，请根据以下发票信息生成简要说明： - 发票代码：{{invoice_code}} - 开票日期：{{issue_date}} - 总金额：¥{{total_amount}} 请确认是否合规，并提醒报销截止时间。

最终输出一段自然语言描述，完成从“图像”到“语义理解”的跃迁。

📊 方案优势与适用场景对比

| 维度 | 商业OCR（如百度OCR） | 云原生OCR服务 | 本CRNN轻量版 | |------|------------------------|----------------|---------------| | 成本 | 按调用量收费，长期使用成本高 | 中等（需服务器费用） |极低（一次性部署）| | 网络依赖 | 强依赖公网 | 强依赖 |支持离线运行| | 数据安全 | 存在隐私泄露风险 | 可控 |完全私有化部署| | 中文识别精度 | 高 | 高 |接近商用水平（>90%）| | 扩展性 | 固定API | 较好 |可定制模型与逻辑| | 部署难度 | 简单 | 中等 |一键镜像启动|

✅推荐使用场景： - 企业内部文档自动化处理 - 边缘设备上的实时OCR需求 - 敏感数据不能外传的金融、医疗行业 - 教学科研项目中的低成本实验平台

🎯 总结与展望

本文详细介绍了如何利用一个基于CRNN 模型的轻量级 OCR 服务，结合Dify 工作流引擎，构建一套完整的智能文档处理管道。我们不仅实现了高精度的文字识别，还通过 API 集成与规则提取，完成了从“看得见”到“理解得了”的跨越。

这套方案的核心价值在于：

低成本落地：无需GPU，CPU即可运行，适合中小企业和开发者个人项目。
高可用性：提供 WebUI 与 API 双模式，兼顾易用性与可编程性。
强扩展性：可轻松替换为其他模型（如 PP-OCRv4、DBNet++），或接入更多AI能力。

未来优化方向包括： - 加入版面分析能力（Table Detection） - 支持 PDF 多页批量处理 - 集成微调功能，支持特定领域字体适配

🚀 行动建议：
如果你正在寻找一个可私有化部署、中文识别能力强、易于集成的 OCR 解决方案，不妨尝试将这个 CRNN 版本集成进你的 Dify 工作流中。只需几行代码，就能让你的应用“学会阅读”。

立即动手，开启你的智能文档自动化之旅！

Dify工作流集成OCR：构建智能文档处理管道