MinerU实战案例：学术论文公式提取全流程，Markdown输出完整指南-深圳市維司達科技有限公司

MinerU实战案例：学术论文公式提取全流程，Markdown输出完整指南

学术论文里的公式，是科研人最熟悉又最头疼的存在。PDF里密密麻麻的LaTeX公式，复制粘贴不是乱码就是丢格式；截图再OCR？公式结构全没了，更别提上下标、积分号、矩阵对齐这些细节。你是不是也经历过：花半小时手动重敲一个三行矩阵，只为在笔记里保留原样？或者把一篇顶会论文转成Markdown时，卡在第5页的公式识别上，干脆放弃？

MinerU 2.5-1.2B 就是为解决这个问题而生的——它不只“认出”公式，而是真正理解公式在文档中的位置、层级和语义关系，把整篇论文从PDF原封不动地“翻译”成可编辑、可渲染、带完整数学结构的Markdown。这不是简单的文本提取，而是一次精准的学术内容重建。

本文不讲原理、不堆参数，只带你走一遍真实场景下的完整流程：从打开镜像、扔进一篇含复杂公式的CVPR论文PDF，到拿到一份连\begin{cases}都原样保留、表格自动对齐、图片按需导出的Markdown文件。每一步都有命令、有结果、有避坑提示，全程无需装环境、不配CUDA、不下载模型——因为所有东西，已经静静躺在镜像里等你用了。

1. 镜像核心能力与适用场景

MinerU 2.5-1.2B 不是一个通用PDF工具，它是专为学术和技术文档深度优化的视觉多模态提取引擎。它的强项非常明确：处理那些让其他工具集体“罢工”的PDF——多栏排版、嵌套表格、跨页公式、手写批注混合印刷体、矢量图与位图混排……尤其擅长从arXiv、IEEE、Springer等平台下载的论文中，干净利落地剥离出结构化内容。

1.1 它能精准提取什么

公式：支持行内公式（ $E=mc^2$ ）与独立公式（$$\nabla \cdot \mathbf{E} = \frac{\rho}{\varepsilon_0}$$），保留原始LaTeX语法，包括多行对齐（align*）、分段函数（cases）、矩阵（bmatrix）、上下标嵌套等
表格：自动识别表头、合并单元格、保留行列结构，输出为标准Markdown表格或可选HTML
图片：区分示意图、流程图、实验结果图，按需导出为PNG/JPEG，并在Markdown中插入相对路径引用
多栏与浮动体：正确还原双栏会议论文的阅读顺序，将浮动图表精准锚定到对应段落附近
参考文献与脚注：识别引用标记（如[1]、^\dagger），并提取对应条目

1.2 它不适合做什么

扫描版PDF（纯图片）：虽然内置OCR，但对低分辨率扫描件效果有限，建议先用专业OCR工具预处理
极度加密或权限受限的PDF：部分期刊PDF禁用文本复制，MinerU无法绕过此限制
非学术类长文档（如小说、法律条文）：未针对大段纯文本做速度优化，提取效率不如专用文本工具

简单说：如果你手头正有一篇带30个公式的NeurIPS投稿PDF，想快速转成Obsidian笔记或Jupyter Notebook，MinerU就是那个“开箱即用”的答案。

2. 三步启动：从镜像到第一份Markdown

本镜像已深度预装 GLM-4V-9B 模型权重及全套依赖环境，真正实现“开箱即用”。你无需繁琐配置，只需通过简单的三步指令即可在本地快速启动视觉多模态推理，极大地降低了模型部署与体验的门槛。

进入镜像后，默认路径为/root/workspace。请严格按以下顺序操作：

2.1 进入工作目录

cd .. cd MinerU2.5

这一步看似简单，却是关键。镜像预置了完整的MinerU2.5项目目录，包含所有脚本、配置和示例文件。直接在此目录下运行，能确保路径、模型加载、依赖调用全部自动对齐。

2.2 执行提取任务

我们已在该目录下准备了示例文件test.pdf（一份含多栏、公式、表格的典型论文节选）。直接运行：

mineru -p test.pdf -o ./output --task doc

-p test.pdf：指定输入PDF路径
-o ./output：指定输出目录（会自动创建）
--task doc：选择“学术文档”模式，启用公式+表格+多栏联合解析策略

小技巧：首次运行会触发模型加载，耗时约30秒（GPU显存占用约6GB）。后续同一会话内再次运行，响应速度将提升至3-5秒/页。

2.3 查看与验证结果

执行完成后，进入./output目录：

ls -R ./output

你会看到清晰的结构：

./output/ ├── test.md # 主Markdown文件（含公式、文字、表格） ├── images/ # 所有提取出的图片（按顺序编号） │ ├── image_001.png │ └── image_002.png └── equations/ # 单独导出的公式图片（可选，用于特殊渲染） └── eq_001.png

用任意Markdown编辑器打开test.md，你会立刻看到：

公式以原生LaTeX形式存在，可被Typora、Obsidian、Jupyter等完美渲染
表格对齐工整，无错位、无乱码
图片路径为相对路径![图1](images/image_001.png)，点击即可预览

这三步，就是你和高质量学术内容提取之间，最短的距离。

3. 实战进阶：处理真实论文的全流程拆解

现在，让我们把场景拉回真实——假设你刚从arXiv下载了一篇标题为《Diffusion Models Beat GANs on Image Classification》的论文PDF（diffusion_vs_gan.pdf），全文12页，含7个核心公式、3张实验对比图、2个跨页表格。如何用MinerU把它变成一份可直接用于知识管理的Markdown？

3.1 准备工作：文件放置与路径确认

将PDF文件复制到镜像内的/root/MinerU2.5/目录下：

cp /path/to/diffusion_vs_gan.pdf /root/MinerU2.5/

确认文件已就位：

ls -lh /root/MinerU2.5/diffusion_vs_gan.pdf # 输出应类似：-rw-r--r-- 1 root root 2.1M May 20 10:30 diffusion_vs_gan.pdf

3.2 执行提取：添加关键参数提升质量

直接运行基础命令可能无法发挥全部潜力。针对学术论文，推荐加入两个关键参数：

mineru -p diffusion_vs_gan.pdf -o ./output_diffusion --task doc --max-pages 12 --skip-text-recognition false

--max-pages 12：显式指定页数，避免自动检测失败导致截断
--skip-text-recognition false：强制启用文本识别（默认为true，但学术PDF常含高质量矢量文本，关闭反而降低公式定位精度）

3.3 结果分析：一眼识别提取质量

打开生成的./output_diffusion/diffusion_vs_gan.md，重点检查三处：

公式完整性：搜索\begin{align}，确认多行公式是否完整保留，上下标是否正确（如x_{t-1}而非x_t-1）
表格对齐：查看实验结果表格，确认数值列是否右对齐，表头是否加粗，合并单元格是否体现为| :--- | ---: |等Markdown对齐语法
图片引用：检查![Figure 3](images/image_003.png)是否存在，且图片文件确实在images/目录下

若发现某页公式缺失，大概率是PDF源文件中该页为扫描图。此时可单独对该页截图，用系统自带的gnome-screenshot保存为PNG，再用MinerU的--task image模式单独处理该图。

4. 配置调优：让提取更贴合你的需求

镜像已为你配置好最优默认值，但科研场景千差万别。以下是最常调整的三个配置点，全部通过编辑/root/magic-pdf.json完成。

4.1 切换设备模式：GPU加速 or CPU兜底

默认配置为"device-mode": "cuda"，适合8GB以上显存。若遇到OOM错误（日志出现CUDA out of memory），立即修改：

{ "device-mode": "cpu", "models-dir": "/root/MinerU2.5/models" }

CPU模式下，处理速度下降约3倍（单页约15秒），但100%稳定，且对显存零要求。

4.2 表格识别引擎选择

MinerU内置两种表格模型：

"structeqtable"（默认）：精度高，适合复杂学术表格，但稍慢
"table-transformer"：速度快，适合简单线性表格

如需提速，修改配置：

"table-config": { "model": "table-transformer", "enable": true }

4.3 公式导出策略

默认公式以LaTeX字符串嵌入Markdown。若你希望所有公式都转为高清PNG（例如用于不支持LaTeX渲染的平台），启用：

"equation-config": { "export-as-image": true, "dpi": 300 }

此时，equations/目录将生成所有公式图片，Markdown中公式位置变为![](equations/eq_001.png)。

5. 常见问题与即时解决方案

实际使用中，你可能会遇到这几个高频问题。它们都有明确、可复现的解决路径，无需重启镜像或重装环境。

5.1 公式显示为方块或乱码

现象：Markdown中公式区域显示为``或空方块
原因：PDF源文件中公式为位图（非矢量），或字体嵌入不全
解决：

用pdfinfo diffusion_vs_gan.pdf检查是否含Tagged PDF: no（表示非标签PDF，结构信息少）
尝试用qpdf --stream-data=uncompress diffusion_vs_gan.pdf uncompressed.pdf解压流数据，再用MinerU处理新文件

5.2 表格列错位，数据挤在第一列

现象：原本三列表格，输出为一列长文本
原因：PDF中表格线为虚线或颜色过浅，MinerU未识别为表格边界
解决：临时切换为--task image模式，对问题页截图后处理：

# 截取第7页为PNG pdftoppm -f 7 -l 7 -png diffusion_vs_gan.pdf page7 mineru -p page7-1.png -o ./output_page7 --task image

5.3 输出目录为空，无任何文件生成

现象：命令执行后./output目录存在但为空
原因：输入PDF路径错误，或PDF权限为只读
排查：

运行ls -l test.pdf确认文件权限为-rw-r--r--
检查PDF是否损坏：用系统PDF阅读器能否正常打开
查看日志：mineru命令末尾会打印INFO: Output saved to ./output，若无此行，说明根本未进入主流程，99%是路径问题

6. 总结：为什么MinerU是学术工作者的必备工具

MinerU 2.5-1.2B 的价值，不在于它有多“大”，而在于它有多“准”、多“省心”。它把一个原本需要组合PDFtk + Mathpix + Tabula + 自定义脚本的繁琐流程，压缩成一条命令。你不再需要纠结“这个公式能不能OCR出来”，而是直接思考“这篇论文的核心论点是什么”。

对研究生：把导师邮件发来的15页技术报告，3分钟转成带可点击公式的Notion页面，复习时直接搜索\nabla就能定位所有微分算子
对论文作者：投稿前用MinerU检查自己PDF的公式可提取性，提前规避出版社系统拒收风险
对知识管理者：构建个人学术库时，所有arXiv论文一键入库，公式、图表、参考文献全部结构化，搜索即得

技术工具的终极意义，是让人回归思考本身。当你不再为复制一个公式而打断思路，MinerU就已经完成了它的使命。

--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景？访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end)，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

MinerU实战案例：学术论文公式提取全流程，Markdown输出完整指南