news 2026/4/23 13:04:40

mineru离线环境解析文档报“Connection to paddleocr.bj.bcebos.com timed out.”

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
mineru离线环境解析文档报“Connection to paddleocr.bj.bcebos.com timed out.”

一.错误描述

在离线环境的服务器中,使用mineru解析文档时,可能会报如下的错误:

HTTPSConnectionPool(host='paddleocr.bj.bcebos.com', port=443): Max retries exceeded with url: /PP-OCRv4/chinese/ch_PP-OCRv4_det_infer.tar (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x7ff1e49af100>, 'Connection to paddleocr.bj.bcebos.com timed out. (connect timeout=None)'))

报这个错误的原因是mineru中使用了百度飞浆的OCR的能力,在解析文档时,会自行下载百度飞浆的模型文件。由于服务器是离线环境,所以在下载模型文件时,会连接超时。

二.文件下载

针对上述问题,我们可以先在有网络的环境,将所需要的模型文件下载好后,再拷贝到离线环境的服务器中。根据本文中错误提示信息,我们发现是需要下载中中和英文的PP-OCRv4这个版本的OCR。本例中一共需要下载了三类模型文件。
1.ch_PP-OCRv4_det_infer.tar(文本检测模型)
作用:
检测图像中文字的位置,用矩形框标出文本区域。

下载地址:

2.ch_PP-OCRv4_rec_infer.tar(文本识别模型)

作用:识别文本区域中的具体文字内容。

下载地址:https://paddleocr.bj.bcebos.com/PP-OCRv4/chinese/ch_PP-OCRv4_rec_infer.tar

3.ch_ppocr_mobile_v2.0_cls_infer.tar(文本方向分类模型)

作用:判断文本的方向,进行自动旋转校正。

下载地址:https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_cls_infer.tar

三.文件拷贝

对于步骤二中已经下载好的三个模型文件,我们可以使用U盘将模型文件拷贝到离线的mineru服务器。本文中是将模型文件服务器的home目录下了。
1.ch_PP-OCRv4_det_infer.tar(文本检测模型)

tar -xvf ch_PP-OCRv4_det_infer.tar mkdir -p /root/.paddleocr/whl/det/ch/ch_PP-OCRv4_det_infer/ cp -R /home/ch_PP-OCRv4_det_infer/* /root/.paddleocr/whl/det/ch/ch_PP-OCRv4_det_infer/

2.ch_PP-OCRv4_rec_infer.tar(文本识别模型)

tar -xvf ch_PP-OCRv4_rec_infer.tar mkdir -p /root/.paddleocr/whl/rec/ch/ch_PP-OCRv4_rec_infer/ cp -R /home/ch_PP-OCRv4_rec_infer/* /root/.paddleocr/whl/rec/ch/ch_PP-OCRv4_rec_infer/

3.ch_ppocr_mobile_v2.0_cls_infer.tar(文本方向分类模型)

tar -xvf ch_ppocr_mobile_v2.0_cls_infer.tar mkdir -p /root/.paddleocr/whl/cls/ch_ppocr_mobile_v2.0_cls_infer/ cp -R /home/ch_ppocr_mobile_v2.0_cls_infer/* /root/.paddleocr/whl/cls/ch_ppocr_mobile_v2.0_cls_infer/

完成以上三个步骤的命令后,我们就把mineru所需要的模型文件拷贝到了相应的目录,此时mineru就可以完成文档解析的操作了。
对于使用docker安装的mineru服务,我们可以使用docker cp命令将所有的模型文件拷贝到容器的/root/.paddleocr/whl/对应的目录下即可。拷贝完成后,最好以此容器为基础来创建一个新的镜像,再以这个新镜像来启动容器,以避免容器重新启动后,拷贝的模型文件又被还原了。

docker cp /home/... container:/root/.paddleocr/...
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 10:45:21

ServiceNow预测阿联酋将在2030年新增超百万AI驱动岗位

ServiceNow预测&#xff0c;随着人工智能和数字技术在经济各领域的深度融合&#xff0c;阿联酋到2030年将新增超过103万个就业岗位&#xff0c;这凸显了该国将自身定位为全球AI中心的宏大雄心。这一预测正值公私部门持续投资AI驱动转型之际&#xff0c;相关举措包括《阿联酋203…

作者头像 李华
网站建设 2026/4/23 12:12:56

杂记 - 状态模式 VS. 责任链模式

目录 一、总体对比二、状态模式三、责任链模式四、扩展&#xff1a;手撸Java WebFilter实现 一、总体对比 状态模式和责任链模式都是行为型设计模式&#xff0c;但它们的意图和应用场景不同&#xff1a; 对比项状态模式责任链模式意图允许对象在内部状态改变时改变它的行为&a…

作者头像 李华
网站建设 2026/4/9 19:17:30

playwright工具(一)自动打开浏览器

playwright1、介绍Playwright 是一个由 Microsoft 开源的 端到端&#xff08;E2E&#xff09;自动化测试工具&#xff0c;主要用于测试 Web 应用。2、作用自动化测试 Chromium / Firefox / WebKit支持 多语言JavaScript / TypeScriptJavaPythonC#可用于&#xff1a;UI 自动化测…

作者头像 李华
网站建设 2026/4/16 17:27:32

面向多端部署的社区平台技术方案:uniapp 与java微服务架构的工程化实践

在内容平台逐渐走向垂直化与私域化的趋势下&#xff0c;企业在规划社区类产品时&#xff0c;往往不再只关注功能是否齐全&#xff0c;而是更关心系统是否易扩展、可维护、能长期演进。 尤其是当目标产品形态同时覆盖 APP 与小程序&#xff0c;并具备内容、社交、电商与即时通讯…

作者头像 李华
网站建设 2026/4/23 5:33:34

别再花冤枉钱!免费 SSL/HTTPS 证书全攻略来袭

一、SSL 证书知多少在如今网络时代&#xff0c;SSL 证书可是保护数据安全的 “盾牌”。它通过加密传输&#xff0c;让网站与用户间信息往来不被窃取、篡改&#xff0c;有效抵御网络攻击。这就引出咱们的主角 —— 免费 SSL 证书。二、免费 SSL 证书优势加密强&#xff1a;为网站…

作者头像 李华