高效读取 100 万行 Excel 大文件数据-深圳市維司達科技有限公司

我先尝试了市面上常见的几套方案：

方法	描述	性能结果	结论
pandas	方便但会一次性加载大内存	20–40 秒	太慢
openpyxl	原生解析 xlsx	60 秒以上	最慢
pyxlsb	解析 xlsb 二进制	~3min30s	可用但不够
CSV（Excel 转 UTF-8）	纯文本读取	9 秒内	最快方案，无可争议

👉 大量资料与 GPT 的技术建议都指向：CSV 是读取速度最快的格式（文本解析远快于 XML / PKG 结构）

但第一次用 CSV 时却发现速度不够快，排查后发现：

❌ 用代码转换 xlsx → csv，非常慢
✅ 用原生 Excel 手动转换为 CSV UTF-8，性能最高（WPS 转的 CSV 不是 UTF-8，会导致解析异常，不推荐）

最终测试：CSV UTF-8 格式 → 读取 80 万行，仅需 8–9 秒

性能提升超过20 倍。

方案一（对比用）：XLSB 版本（3.5 分钟）

from pyxlsb import open_workbook def read_xlsb_to_3d_list(file_path, sheet_name, chunk_size=10000): result = [] current_chunk = [] row_count = 0 with open_workbook(file_path) as wb: with wb.get_sheet(sheet_name) as sheet: for i, row in enumerate(sheet.rows(), start=1): if i == 1: continue row_data = [cell.v for cell in row] current_chunk.append(row_data) row_count += 1 if row_count % chunk_size == 0: result.append(current_chunk) current_chunk = [] if current_chunk: result.append(current_chunk) return result

优点：能直接读取 xlsb缺点：速度慢，不适合百万级数据

最终推荐方案：CSV 超高速版本（9 秒内）

性能最佳的做法流程

用 Excel 手动把.xlsx转为.csv (UTF-8)
使用下面的纯 Python CSV 流式读取代码

高性能 CSV 方案代码

import csv def read_csv_as_3d_list(csv_path, batch_size=10000, encoding="utf-8"): all_data = [] batches = [] current_batch = [] with open(csv_path, "r", encoding=encoding, newline="") as f: reader = csv.reader(f) next(reader, None) # 跳过表头 for row in reader: all_data.append(row) current_batch.append(row) if len(current_batch) >= batch_size: batches.append(current_batch) current_batch = [] if current_batch: batches.append(current_batch) return [all_data, batches]

实测结果（80 万行）

⏱ 耗时：8–10 秒
✔ 内存占用稳定
✔ 三维结构满足 RPA 使用场景
✔ 影刀流程执行无卡顿

经验总结

格式比工具更重要：CSV 是绝对的性能王者

XLSX 是压缩包 + XML，需要大量解析成本。

CSV 是纯文本，解析速度是数量级优势。

不推荐用 WPS 转 CSV

WPS 导出的 CSV 默认编码不是 UTF-8，会导致解析异常。

大文件一定要流式读取

不要一次性加载 DataFrame，否则内存和 CPU 都会爆。

每 1 万行切片是最佳折中

可兼顾可视化和后续处理的性能。

终极指南：5步精通Godot资源提取与逆向工程实战

终极指南：5步精通Godot资源提取与逆向工程实战【免费下载链接】godot-unpacker godot .pck unpacker 项目地址: https://gitcode.com/gh_mirrors/go/godot-unpacker Godot引擎作为开源游戏开发平台，其资源打包格式.pck文件承载着游戏的核心资产。…

李华

LobeChat容器资源限制设置：避免GPU内存溢出

LobeChat容器资源限制设置：避免GPU内存溢出在构建本地化AI聊天系统时，一个看似简单的部署动作——启动LobeChat容器——背后可能隐藏着巨大的稳定性风险。尤其当它连接到运行在GPU上的大模型服务时，一次突发的高并发请求或一个过大的上下文…

李华

内容解锁技术革命：智能付费墙绕过工具的完整评测方案

在数字内容日益丰富的今天，优质信息的获取却面临着前所未有的挑战。付费墙作为内容变现的主要手段，在保护创作者权益的同时，也为普通用户设置了难以逾越的障碍。本评测将深入分析当前主流的内容解锁工具，为您提供全面的技术评估和…

李华

高效办公新利器：用LobeChat构建团队内部AI助手平台

高效办公新利器：用LobeChat构建团队内部AI助手平台在客服工位上，一位员工正处理第17个客户咨询：“我的订单还没发货。”他熟练地打开ERP系统查单号、切换到物流平台核对状态、再回到聊天窗口回复——这套流程每天重复数十次。而在隔壁会议室…

李华

付费墙绕过工具终极指南：3分钟解锁付费新闻的完整方案

付费墙绕过工具终极指南：3分钟解锁付费新闻的完整方案【免费下载链接】bypass-paywalls-chrome-clean 项目地址: https://gitcode.com/GitHub_Trending/by/bypass-paywalls-chrome-clean 你是否曾为了一篇深度报道而苦恼于付费墙的限制？当优质内…

李华

方案一（对比用）：XLSB 版本（3.5 分钟）

最终推荐方案：CSV 超高速版本（9 秒内）

性能最佳的做法流程

高性能 CSV 方案代码

实测结果（80 万行）

经验总结

格式比工具更重要：CSV 是绝对的性能王者

不推荐用 WPS 转 CSV

大文件一定要流式读取

每 1 万行切片是最佳折中

终极指南：5步精通Godot资源提取与逆向工程实战

LobeChat容器资源限制设置：避免GPU内存溢出

内容解锁技术革命：智能付费墙绕过工具的完整评测方案

高效办公新利器：用LobeChat构建团队内部AI助手平台

如何彻底清理显卡驱动：Display Driver Uninstaller完整使用指南

付费墙绕过工具终极指南：3分钟解锁付费新闻的完整方案