# MinerU **Repository Path**: open-data-lab/MinerU ## Basic Information - **Project Name**: MinerU - **Description**: MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 - **Primary Language**: Python - **License**: AGPL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 53 - **Forks**: 25 - **Created**: 2025-05-23 - **Last Updated**: 2025-09-21 ## Categories & Tags **Categories**: doc-tools **Tags**: None ## README

[![stars](https://img.shields.io/github/stars/opendatalab/MinerU.svg)](https://github.com/opendatalab/MinerU) [![forks](https://img.shields.io/github/forks/opendatalab/MinerU.svg)](https://github.com/opendatalab/MinerU) [![open issues](https://img.shields.io/github/issues-raw/opendatalab/MinerU)](https://github.com/opendatalab/MinerU/issues) [![issue resolution](https://img.shields.io/github/issues-closed-raw/opendatalab/MinerU)](https://github.com/opendatalab/MinerU/issues) [![PyPI version](https://img.shields.io/pypi/v/mineru)](https://pypi.org/project/mineru/) [![PyPI - Python Version](https://img.shields.io/pypi/pyversions/mineru)](https://pypi.org/project/mineru/) [![Downloads](https://static.pepy.tech/badge/mineru)](https://pepy.tech/project/mineru) [![Downloads](https://static.pepy.tech/badge/mineru/month)](https://pepy.tech/project/mineru) [![OpenDataLab](https://img.shields.io/badge/webapp_on_mineru.net-blue?logo=&labelColor=white)](https://mineru.net/OpenSourceTools/Extractor?source=github) [![ModelScope](https://img.shields.io/badge/Demo_on_ModelScope-purple?logo=&labelColor=white)](https://www.modelscope.cn/studios/OpenDataLab/MinerU) [![HuggingFace](https://img.shields.io/badge/Demo_on_HuggingFace-yellow.svg?logo=&labelColor=white)](https://huggingface.co/spaces/opendatalab/MinerU) [![Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/gist/myhloli/a3cb16570ab3cfeadf9d8f0ac91b4fca/mineru_demo.ipynb) [![arXiv](https://img.shields.io/badge/arXiv-2409.18839-b31b1b.svg?logo=arXiv)](https://arxiv.org/abs/2409.18839) [![Ask DeepWiki](https://deepwiki.com/badge.svg)](https://deepwiki.com/opendatalab/MinerU) opendatalab%2FMinerU | Trendshift [English](README.md) | [简体中文](README_zh-CN.md)

🚀MinerU 官网入口→✅ 免装在线版 ✅ 全功能客户端 ✅ 开发者API在线调用,省去部署麻烦,多种产品形态一键get,速冲!

👋 join us on Discord and WeChat

# 更新记录 - 2025/09/20 2.5.3 发布 - 依赖版本范围调整,使得Turing及更早架构显卡可以使用vLLM加速推理MinerU2.5模型。 - `pipeline`后端对torch 2.8.0的一些兼容性修复。 - 降低vLLM异步后端默认的并发数,降低服务端压力以避免高压导致的链接关闭问题。 - 更多兼容性相关内容详见[公告](https://github.com/opendatalab/MinerU/discussions/3547) - 2025/09/19 2.5.2 发布 我们正式发布 MinerU2.5,当前最强文档解析多模态大模型。仅凭 1.2B 参数,MinerU2.5 在 OmniDocBench 文档解析评测中,精度已全面超越 Gemini2.5-Pro、GPT-4o、Qwen2.5-VL-72B等顶级多模态大模型,并显著领先于主流文档解析专用模型(如 dots.ocr, MonkeyOCR, PP-StructureV3 等)。 模型已发布至[HuggingFace](https://huggingface.co/opendatalab/MinerU2.5-2509-1.2B)和[ModelScope](https://modelscope.cn/models/opendatalab/MinerU2.5-2509-1.2B)平台,欢迎大家下载使用! - 核心亮点 - 极致能效,性能SOTA: 以 1.2B 的轻量化规模,实现了超越百亿乃至千亿级模型的SOTA性能,重新定义了文档解析的能效比。 - 先进架构,全面领先: 通过 “两阶段推理” (解耦布局分析与内容识别) 与 原生高分辨率架构 的结合,在布局分析、文本识别、公式识别、表格识别及阅读顺序五大方面均达到 SOTA 水平。 - 关键能力提升 - 布局检测: 结果更完整,精准覆盖页眉、页脚、页码等非正文内容;同时提供更精准的元素定位与更自然的格式还原(如列表、参考文献)。 - 表格解析: 大幅优化了对旋转表格、无线/少线表、以及长难表格的解析能力。 - 公式识别: 显著提升中英混合公式及复杂长公式的识别准确率,大幅改善数学类文档解析能力。 此外,伴随vlm 2.5的发布,我们对仓库做出一些调整: - vlm后端升级至2.5版本,支持MinerU2.5模型,不再兼容MinerU2.0-2505-0.9B模型,最后一个支持2.0模型的版本为mineru-2.2.2。 - vlm推理相关代码已移至[mineru_vl_utils](https://github.com/opendatalab/mineru-vl-utils),降低与mineru主仓库的耦合度,便于后续独立迭代。 - vlm加速推理框架从`sglang`切换至`vllm`,并实现对vllm生态的完全兼容,使得用户可以在任何支持vllm框架的平台上使用MinerU2.5模型并加速推理。 - 由于vlm模型的重大升级,支持更多layout type,因此我们对解析的中间文件`middle.json`和结果文件`content_list.json`的结构做出一些调整,请参考[文档](https://opendatalab.github.io/MinerU/zh/reference/output_files/)了解详情。 其他仓库优化: - 移除对输入文件的后缀名白名单校验,当输入文件为PDF文档或图片时,对文件的后缀名不再有要求,提升易用性。
历史日志
2025/09/10 2.2.2 发布
2025/09/08 2.2.1 发布
2025/09/05 2.2.0 发布
2025/08/01 2.1.10 发布
2025/07/30 2.1.9 发布
2025/07/28 2.1.8 发布
2025/07/27 2.1.7 发布
2025/07/26 2.1.6 发布
2025/07/24 2.1.5 发布
2025/07/23 2.1.4 发布
2025/07/16 2.1.1 发布
2025/07/05 2.1.0 发布

这是 MinerU 2 的第一个大版本更新,包含了大量新功能和改进,包含众多性能优化、体验优化和bug修复,具体更新内容如下:

2025/06/20 2.0.6发布
2025/06/17 2.0.5发布
2025/06/15 2.0.3发布
2025/06/13 2.0.0发布
2025/05/24 1.3.12 发布
2025/04/29 1.3.10 发布
2025/04/27 1.3.9 发布
2025/04/23 1.3.8 发布
2025/04/22 1.3.7 发布
2025/04/16 1.3.4 发布
2025/04/12 1.3.2 发布
2025/04/08 1.3.1 发布
2025/04/03 1.3.0 发布
2025/03/03 1.2.1 发布,修复了一些问题
2025/02/24 1.2.0 发布,这个版本我们修复了一些问题,提升了解析的效率与精度:
2025/01/22 1.1.0 发布,在这个版本我们重点提升了解析的精度与效率:
2025/01/10 1.0.1 发布,这是我们的第一个正式版本,在这个版本中,我们通过大量重构带来了全新的API接口和更广泛的兼容性,以及全新的自动语言识别功能:
2024/11/22 0.10.0发布,通过引入混合OCR文本提取能力,
2024/11/15 0.9.3发布,为表格识别功能接入了RapidTable,单表解析速度提升10倍以上,准确率更高,显存占用更低
2024/11/06 0.9.2发布,为表格识别功能接入了StructTable-InternVL2-1B模型
2024/10/31 0.9.0发布,这是我们进行了大量代码重构的全新版本,解决了众多问题,提升了性能,降低了硬件需求,并提供了更丰富的易用性:
2024/09/27 0.8.1发布,修复了一些bug,同时提供了在线demo本地化部署版本前端界面
2024/09/09 0.8.0发布,支持Dockerfile快速部署,同时上线了huggingface、modelscope demo
2024/08/30 0.7.1发布,集成了paddle tablemaster表格识别功能
2024/08/09 0.7.0b1发布,简化安装步骤提升易用性,加入表格识别功能
2024/08/01 0.6.2b1发布,优化了依赖冲突问题和安装文档
2024/07/05 首次开源
# MinerU ## 项目简介 MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 MinerU诞生于[书生-浦语](https://github.com/InternLM/InternLM)的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。 相比国内外知名商用产品MinerU还很年轻,如果遇到问题或者结果不及预期请到[issue](https://github.com/opendatalab/MinerU/issues)提交问题,同时**附上相关PDF**。 https://github.com/user-attachments/assets/4bea02c9-6d54-4cd6-97ed-dff14340982c ## 主要功能 - 删除页眉、页脚、脚注、页码等元素,确保语义连贯 - 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版 - 保留原文档的结构,包括标题、段落、列表等 - 提取图像、图片描述、表格、表格标题及脚注 - 自动识别并转换文档中的公式为LaTeX格式 - 自动识别并转换文档中的表格为HTML格式 - 自动检测扫描版PDF和乱码PDF,并启用OCR功能 - OCR支持84种语言的检测与识别 - 支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等 - 支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检 - 支持纯CPU环境运行,并支持 GPU(CUDA)/NPU(CANN)/MPS 加速 - 兼容Windows、Linux和Mac平台 # 快速开始 如果安装或使用中遇到任何问题,请先查询 FAQ
如果遇到解析效果不及预期,参考 Known Issues
## 在线体验 ### 官网在线应用 官网在线版功能与客户端一致,界面美观,功能丰富,需要登录使用 - [![OpenDataLab](https://img.shields.io/badge/webapp_on_mineru.net-blue?logo=&labelColor=white)](https://mineru.net/OpenSourceTools/Extractor?source=github) ### 基于Gradio的在线demo 基于gradio开发的webui,界面简洁,仅包含核心解析功能,免登录 - [![ModelScope](https://img.shields.io/badge/Demo_on_ModelScope-purple?logo=&labelColor=white)](https://www.modelscope.cn/studios/OpenDataLab/MinerU) - [![HuggingFace](https://img.shields.io/badge/Demo_on_HuggingFace-yellow.svg?logo=&labelColor=white)](https://huggingface.co/spaces/opendatalab/MinerU) ## 本地部署 > [!WARNING] > **安装前必看——软硬件环境支持说明** > > 为了确保项目的稳定性和可靠性,我们在开发过程中仅对特定的软硬件环境进行优化和测试。这样当用户在推荐的系统配置上部署和运行项目时,能够获得最佳的性能表现和最少的兼容性问题。 > > 通过集中资源和精力于主线环境,我们团队能够更高效地解决潜在的BUG,及时开发新功能。 > > 在非主线环境中,由于硬件、软件配置的多样性,以及第三方依赖项的兼容性问题,我们无法100%保证项目的完全可用性。因此,对于希望在非推荐环境中使用本项目的用户,我们建议先仔细阅读文档以及FAQ,大多数问题已经在FAQ中有对应的解决方案,除此之外我们鼓励社区反馈问题,以便我们能够逐步扩大支持范围。
解析后端 pipeline vlm-transformers vlm-vllm
操作系统 Linux / Windows / macOS Linux / Windows Linux / Windows (via WSL2)
CPU推理支持
GPU要求 Turing及以后架构,6G显存以上或Apple Silicon Turing及以后架构,8G显存以上
内存要求 最低16G以上,推荐32G以上
磁盘空间要求 20G以上,推荐使用SSD
python版本 3.10-3.13
### 安装 MinerU #### 使用pip或uv安装MinerU ```bash pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple pip install uv -i https://mirrors.aliyun.com/pypi/simple uv pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple ``` #### 通过源码安装MinerU ```bash git clone https://github.com/opendatalab/MinerU.git cd MinerU uv pip install -e .[core] -i https://mirrors.aliyun.com/pypi/simple ``` > [!TIP] > `mineru[core]`包含除`vLLM`加速外的所有核心功能,兼容Windows / Linux / macOS系统,适合绝大多数用户。 > 如果您有使用`vLLM`加速VLM模型推理,或是在边缘设备安装轻量版client端等需求,可以参考文档[扩展模块安装指南](https://opendatalab.github.io/MinerU/zh/quick_start/extension_modules/)。 --- #### 使用docker部署Mineru MinerU提供了便捷的docker部署方式,这有助于快速搭建环境并解决一些棘手的环境兼容问题。 您可以在文档中获取[Docker部署说明](https://opendatalab.github.io/MinerU/zh/quick_start/docker_deployment/)。 --- ### 使用 MinerU 最简单的命令行调用方式: ```bash mineru -p -o ``` 您可以通过命令行、API、WebUI等多种方式使用MinerU进行PDF解析,具体使用方法请参考[使用指南](https://opendatalab.github.io/MinerU/zh/usage/)。 # TODO - [x] 基于模型的阅读顺序 - [x] 正文中目录、列表识别 - [x] 表格识别 - [x] 标题分级 - [x] 手写文本识别 - [x] 竖排文本识别 - [x] 拉丁字母重音符号识别 - [x] 正文中代码块识别 - [x] [化学式识别](docs/chemical_knowledge_introduction/introduction.pdf)(https://mineru.net) - [ ] 图表内容识别 # Known Issues - 阅读顺序基于模型对可阅读内容在空间中的分布进行排序,在极端复杂的排版下可能会部分区域乱序 - 对竖排文字的支持较为有限 - 目录和列表通过规则进行识别,少部分不常见的列表形式可能无法识别 - 代码块在layout模型里还没有支持 - 漫画书、艺术图册、小学教材、习题尚不能很好解析 - 表格识别在复杂表格上可能会出现行/列识别错误 - 在小语种PDF上,OCR识别可能会出现字符不准确的情况(如阿拉伯文易混淆字符等) - 部分公式可能会无法在markdown中渲染 # FAQ - 如果您在使用过程中遇到问题,可以先查看[常见问题](https://opendatalab.github.io/MinerU/zh/faq/)是否有解答。 - 如果未能解决您的问题,您也可以使用[DeepWiki](https://deepwiki.com/opendatalab/MinerU)与AI助手交流,这可以解决大部分常见问题。 - 如果您仍然无法解决问题,您可通过[Discord](https://discord.gg/Tdedn9GTXq)或[WeChat](https://mineru.net/community-portal/?aliasId=3c430f94)加入社区,与其他用户和开发者交流。 # All Thanks To Our Contributors # License Information [LICENSE.md](LICENSE.md) 本项目目前部分模型基于YOLO训练,但因其遵循AGPL协议,可能对某些使用场景构成限制。未来版本迭代中,我们计划探索并替换为许可条款更为宽松的模型,以提升用户友好度及灵活性。 # Acknowledgments - [PDF-Extract-Kit](https://github.com/opendatalab/PDF-Extract-Kit) - [DocLayout-YOLO](https://github.com/opendatalab/DocLayout-YOLO) - [UniMERNet](https://github.com/opendatalab/UniMERNet) - [RapidTable](https://github.com/RapidAI/RapidTable) - [TableStructureRec](https://github.com/RapidAI/TableStructureRec) - [PaddleOCR](https://github.com/PaddlePaddle/PaddleOCR) - [PaddleOCR2Pytorch](https://github.com/frotms/PaddleOCR2Pytorch) - [layoutreader](https://github.com/ppaanngggg/layoutreader) - [xy-cut](https://github.com/Sanster/xy-cut) - [fast-langdetect](https://github.com/LlmKira/fast-langdetect) - [pypdfium2](https://github.com/pypdfium2-team/pypdfium2) - [pdftext](https://github.com/datalab-to/pdftext) - [pdfminer.six](https://github.com/pdfminer/pdfminer.six) - [pypdf](https://github.com/py-pdf/pypdf) - [magika](https://github.com/google/magika) # Citation ```bibtex @misc{wang2024mineruopensourcesolutionprecise, title={MinerU: An Open-Source Solution for Precise Document Content Extraction}, author={Bin Wang and Chao Xu and Xiaomeng Zhao and Linke Ouyang and Fan Wu and Zhiyuan Zhao and Rui Xu and Kaiwen Liu and Yuan Qu and Fukai Shang and Bo Zhang and Liqun Wei and Zhihao Sui and Wei Li and Botian Shi and Yu Qiao and Dahua Lin and Conghui He}, year={2024}, eprint={2409.18839}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2409.18839}, } @article{he2024opendatalab, title={Opendatalab: Empowering general artificial intelligence with open datasets}, author={He, Conghui and Li, Wei and Jin, Zhenjiang and Xu, Chao and Wang, Bin and Lin, Dahua}, journal={arXiv preprint arXiv:2407.13773}, year={2024} } ``` # Star History Star History Chart # Links - [Easy Data Preparation with latest LLMs-based Operators and Pipelines](https://github.com/OpenDCAI/DataFlow) - [Vis3 (OSS browser based on s3)](https://github.com/opendatalab/Vis3) - [LabelU (A Lightweight Multi-modal Data Annotation Tool)](https://github.com/opendatalab/labelU) - [LabelLLM (An Open-source LLM Dialogue Annotation Platform)](https://github.com/opendatalab/LabelLLM) - [PDF-Extract-Kit (A Comprehensive Toolkit for High-Quality PDF Content Extraction)](https://github.com/opendatalab/PDF-Extract-Kit) - [OmniDocBench (A Comprehensive Benchmark for Document Parsing and Evaluation)](https://github.com/opendatalab/OmniDocBench) - [Magic-HTML (Mixed web page extraction tool)](https://github.com/opendatalab/magic-html) - [Magic-Doc (Fast speed ppt/pptx/doc/docx/pdf extraction tool)](https://github.com/InternLM/magic-doc) - [Dingo: A Comprehensive AI Data Quality Evaluation Tool](https://github.com/MigoXLab/dingo)