news 2026/4/23 11:58:31

我把pdfplumber整成了可以拖拉拽的web应用

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
我把pdfplumber整成了可以拖拉拽的web应用

pdfplumber是专门用来处理PDF的第三方库,完全开源和免费,它最核心的功能是提取PDF的文本和表格,支持保留段落、换行、空格的原始格式,不会像某些库那样把不同区域的文本混在一起,是我体验下来最好用的PDF处理库。

pdfplumber可以对PDF进行基本查询和编辑。

  • page_number:页码
  • width/height:页面尺寸
  • rotation:旋转角度
  • bbox:页面边界框
  • crop(bbox):裁剪指定区域
  • rotate(angle):旋转页面
  • to_image():生成可视化页面

同时支持提取PDF文本和表格,这是pdfplumber的强项。

  • extract_text():保留布局的整页文本提取
  • extract_text_simple():忽略布局的简单文本提取
  • get_textbox(bbox):提取指定区域文本
  • extract_table(table_settings={}):提取页面第一个表格
  • extract_tables(table_settings={}):提取页面所有表格
  • find_tables():查找表格边界框
  • extract_images():提取页面所有图像

pdfplumber使用也很简单,比如说提取PDF页面。

import pdfplumber with pdfplumber.open("path/to/file.pdf") as pdf: first_page = pdf.pages[0] print(first_page.chars[0])

虽然在Python上使用pdfplumber提取PDF文本表格并不难,但这仅限于懂Python的同学,如果你不会Python,那也是没办法用pdfplumber操作PDF,只能求助于付费软件。

我突发奇想用pdfplumber搭建了个PDF文本表格提取应用,可以实现拖拉拽实现操作,不需要任何的代码。

这个应用是基于streamlit开发的,在浏览器上打开使用,它支持的PDF操作包括:

1、支持拖拽导入PDF,并查看PDF基本信息

2、支持提取PDF文本、表格

3、支持导出Markdown、Word、TxT、Json格式文件

4、支持拉取所有表格,并导出Excel格式文件

5、支持将PDF转换为Word文件,并保持样式

6、支持DeepSeek生成PDF文本摘要

下面以一份PDF行业报告为例,咱们用这个工具去提取文本和表格,速度非常快。

首先将PDF拖到打开栏里,点击处理PDF。

它就会将完整的文本提取出来,并显示PDF的基本信息。

点击表格功能,这个PDF所有的表格都会单独呈现出来,并可以下载Excel文件。

下载的Excel包含所有PDF表格,且高度还原格式。

你可以将提取的文本导出为Word、Markdown、txt、Json格式文件。

导出的Markdown文件如下:

还可以直接将PDF原封不动转换为Word文件。

我还在这个应用里植入了DeepSeek总结功能可以提炼PDF摘要。

以上就是这个web应用的功能,应该是比较适合日常办公处理PDF。

如何安装这个应用呢?

因为它是基于Python streamlit开发的,所以会有一些依赖库,在使用前需要安装到本地电脑,包括:

# Core PDF processing pdfplumber==0.11.0 PyPDF2==3.0.1 pdf2docx==0.5.8 # AI API integration requests==2.31.0 openai==1.12.0 # Document generation python-docx==1.1.0 markdown==3.5.2 # Web framework streamlit==1.31.0 streamlit-extras==0.3.6 # Data processing pandas==2.2.0 numpy==1.26.4 openpyxl==3.1.2 # Async processing aiohttp==3.9.3 # Utilities python-dotenv==1.0.1 Pillow==10.2.0 tqdm==4.66.1 # Logging loguru==0.7.2

当然这里默认你的电脑上已经安装好Python,并配置好以上依赖,然后你就可以通过以下命令进入该应用。

streamlit run app.py

或者直接点击文件夹里的run批处理文件,就能直接启动应用。

我写了详细的readme,你可以根据指引来安装使用。

想要下载可以去我的Github仓库,地址如下:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 10:54:55

PostgreSQL和MySQL有什么区别?各自的应用场景有哪些?

PostgreSQL 和 MySQL 是目前最流行的两大开源关系型数据库,在 2026 年它们仍然占据绝大部分市场份额,但适用场景已经出现明显分化。下面从多个维度进行详细对比,并给出当前(2026年)最真实的选型建议。 核心区别对比表…

作者头像 李华
网站建设 2026/4/18 5:15:33

【预测模型】GA-XGBoost回归+SHAP分析+新数据预测!Matlab代码实现

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f34…

作者头像 李华
网站建设 2026/4/23 11:25:19

如何用AI自动修复ACBRANDRES.DLL加载错误

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个Windows系统诊断工具,能够自动检测ACBRANDRES.DLL文件缺失或损坏问题。工具应包含以下功能:1) 扫描系统注册表中相关条目 2) 检查系统目录下的DLL文…

作者头像 李华
网站建设 2026/4/23 0:43:25

做外贸需要google独立站吗?这篇帮你算清这笔账

最近不少做外贸的朋友都在纠结同一个问题,尤其是看到亚马逊封号潮、阿里国际站规则变动频繁之后,大家的焦虑感明显上升。在饭局上、在微信群里,大家问得最多的就是:做外贸需要google独立站吗? 还是说继续守着B2B平台死…

作者头像 李华
网站建设 2026/4/23 11:55:55

学生宿舍管理系统(源码+数据库+文档)

学生宿舍管理 目录 基于springboot vue学生宿舍管理系统 一、前言 二、系统功能演示 ​三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue学生宿舍管理系统 一、前言 博主介绍&am…

作者头像 李华
网站建设 2026/4/21 5:39:13

思维导图生成

思维导图源码 # 宽带## 定义 - 网络接入方式 - 上网服务形态## 常见类型 - 光纤宽带 - ADSL - 4G / 5G 蜂窝网络## 作用 - 提供数据通信通道## 关联概念 ### 带宽 #### 定义 - 单位时间内可传输的最大数据量#### 性质 - 技术指标#### 单位 - bps - Mbps - Gbps#### 影响因素 -…

作者头像 李华