hub / github.com/opendatalab/MinerU

github.com/opendatalab/MinerU @mineru-3.4.0-released sqlite

repository ↗ · DeepWiki ↗ · release mineru-3.4.0-released ↗

3,194 symbols 10,108 edges 222 files 1,157 documented · 36% 10 cross-repo links

README

🚀MinerU 官网入口→✅ 免装在线版 ✅ 全功能客户端 ✅ 开发者API在线调用，省去部署麻烦，多种产品形态一键get，速冲！

👋 join us on <a href="https://discord.gg/Tdedn9GTXq" target="_blank">Discord</a> and <a href="https://mineru.net/community-portal/?aliasId=3c430f94" target="_blank">WeChat</a>

MinerU — 专为 LLM · RAG · Agent 场景构建的高精度文档解析引擎

将 PDF · DOCX · PPTX · XLSX · 图片 · 网页转为结构化 Markdown / JSON · VLM+OCR 双引擎 · 109 种语言

MCP Server · LangChain / Dify / FastGPT 原生集成 · 10+ 国产算力适配

🔍 核心解析能力 - 原生支持 DOCX、PPTX、XLSX 解析 - 公式 → LaTeX · 表格 → HTML，精准还原复杂版面 - 支持扫描件、手写体、多栏布局、跨页表格合并 - 输出符合人类阅读顺序，自动去除页眉页脚 - VLM + OCR 双引擎，支持 109 种语言识别

🔌 接入方式

场景	方案
AI 编程工具	MCP Server — Cursor · Claude Desktop · Windsurf
RAG 框架	LangChain · LlamaIndex · RAGFlow · RAG-Anything · Flowise · Dify · FastGPT
开发集成	Python / Go / TypeScript SDK · CLI · REST API · Docker
零代码	mineru.net 在线版 · Gradio WebUI · 桌面客户端

🖥️ 部署生态（支持私有化 · 完全离线）

推理后端	适用场景
pipeline	快速稳定，无幻觉，CPU / GPU 均可运行
vlm-engine	高精度，支持 vLLM / LMdeploy / mlx 生态
hybrid-engine	高精度，原生文本提取，低幻觉

国产算力：昇腾 · 寒武纪 · 燧原 · 沐曦 · 摩尔线程 · 昆仑芯 · 天数智芯 · 瀚博 · 太初元碁 · 海光 · 平头哥

更新记录

2026/06/18 3.4 发布

本次版本更新聚焦于 pipeline 后端 OCR 能力升级、OCR 处理链路优化 与 模型下载体验改进。主要更新内容包括：

OCR 模型升级与处理加速
- pipeline 后端 OCR 模型更新至 PP-OCRv6，在 OmniDocBench v1.6 评测中，OCR 相关指标提升约 11%。
- 移除 OCR 语言选择中的日语、繁体中文、英语、拉丁文选项，相关场景统一路由到 ch OCR 模型，简化模型配置与语言选择逻辑。
- 优化 OCR 推理与处理链路，OCR 处理速度提升约 100%，显著改善批量文档和 OCR 密集型文档的解析效率。
模型下载逻辑优化
- 新增模型源自动选择能力，首次安装时可根据当前网络环境自动选择更合适的模型源。
- 下载模型前会优先检查本地已下载的模型缓存文件，命中缓存时可直接复用，减少重复下载和不必要的远端请求。
- 更多模型源配置、自动选择策略与本地模型使用说明，请参考模型源说明。

在 3.4 版本，MinerU 进一步提升了 pipeline 后端在 OCR 场景下的解析精度与处理效率，同时优化了模型下载、缓存复用和本地配置写入流程，让首次安装、模型更新和多环境部署更加稳定、自动化。

2026/06/11 3.3 发布

本次版本更新聚焦于 Hybrid 解析性能优化 与 VLM 模型能力升级。主要更新内容包括：

Hybrid 后端新增 effort 解析强度参数
- 新增 medium 与 high 两档解析强度，用户可根据解析速度、解析精度和功能需求灵活选择。
- 在 OmniDocBench v1.6 评测中，medium 相比 high 综合精度仅降低 0.13，但在不同设备和场景下可获得 35% ~ 220% 的解析速度提升：
- Linux：文本 PDF 场景提升约 80%，OCR 场景提升约 35%
- Windows：文本 PDF 场景提升约 90%，OCR 场景提升约 45%
- macOS：文本 PDF 场景提升约 220%，OCR 场景提升约 50%
- 默认 Hybrid 后端将使用 effort=medium，在保持高解析精度的同时显著提升整体解析效率。
- medium 档不支持 image analysis（图片/图表分析）功能；如需极致解析精度或启用 image analysis，可通过 effort=high 切换至高强度解析模式，但解析速度会受到一定影响。
VLM 模型升级至 MinerU2.5-Pro-2605-1.2B
- 修复 2604 版本中存在的多处模型问题，进一步提升复杂文档场景下的解析稳定性。
- 原生支持多语言 OCR，降低多语言文档解析时对额外语言参数配置的依赖，提升跨语言场景的开箱即用体验。

通过 3.3 版本，MinerU 在保持高精度解析能力的同时，进一步提升了 Hybrid 后端在多平台、多场景下的解析效率。默认 medium 解析强度更适合大多数日常文档处理任务，而 high 模式则面向对解析精度和 image analysis 能力有更高要求的场景。

2026/04/18 3.1.0 发布

本次版本更新聚焦于许可协议开放性、解析精度提升与全格式原生支持。主要更新内容包括：

许可协议升级
- MinerU 已正式从 AGPLv3 切换至基于 Apache 2.0 的 MinerU 开源许可证。
- 新的许可方式在兼顾开源协作与商业落地的同时，进一步降低了社区使用和商业化接入门槛，让 MinerU 更容易融入真实业务流程。
VLM 主模型升级
- VLM 主模型正式切换为 MinerU2.5-Pro-2604-1.2B，整体解析精度提升至业内领先水平。
- 新模型现已支持子图切分合并、图像与图表解析、截断段落合并、跨页面表格合并以及表格内图像识别，复杂版面场景下的解析能力进一步增强。
全格式原生解析支持
- 新增 PPTX 与 XLSX 原生解析能力。
- 至此，MinerU 已完整支持图片、PDF、DOCX、PPTX、XLSX 全格式解析，为多类型文档统一处理提供了更完整的能力闭环。

通过 3.1.0 版本，MinerU 在开放性、解析精度和落地能力上进一步提升。新的许可协议降低了社区使用和商业接入门槛，MinerU2.5-Pro-2604-1.2B 提升了复杂内容的解析质量，而 PPTX 与 XLSX 原生解析的补齐，也让 MinerU 完成了主流文档格式的端到端覆盖。

2026/03/29 3.0.0 发布

本次版本更新围绕解析能力、系统架构与工程可用性进行了系统升级。主要更新内容包括：

DOCX 原生解析
- 正式支持 DOCX 原生解析，在无幻觉前提下实现高精度解析。
- 相较于“先将 DOCX 转为 PDF 再解析”的传统流程，端到端速度提升数十倍以上，更适合对精度与吞吐均有要求的场景。
pipeline 后端升级
- pipeline 后端在 OmniDocBench (v1.5) 上取得 86.2 分，精度超过上一代主流 VLM MinerU2.0-2505-0.9B。
- 新增表格内图片/公式解析、印章文字识别、竖排文本支持、行间公式序号识别等能力，持续提升复杂文档场景下的解析效果。
- 在保持高精度的同时，资源占用极低，并继续支持纯 CPU 环境推理。
API / CLI / Router 编排升级
- mineru 现作为基于 mineru-api 的编排客户端运行；在未传入 --api-url 时，会自动拉起本地临时服务。
- mineru-api 新增异步任务接口 POST /tasks，支持任务提交、状态查询与结果获取；同时保留同步解析接口 POST /file_parse，以兼容老版本插件。
- 新增 mineru-router，适用于多服务、多 GPU 的统一入口部署与任务路由；其接口与 mineru-api 完全兼容，并支持任务自动负载均衡。
部署与使用体验优化
- 解决了 torch >= 2.8 的兼容问题，基础镜像升级为 vllm0.11.2 + torch2.9.0，统一了不同 Compute Capability 的安装路径。
- 通过滑动窗口优化解析链路，显著降低长文档场景下的内存峰值占用，上万页文档解析不再需要手动拆分。
- pipeline 的 batch 推理支持流式落盘，已完成的解析结果可及时写出，进一步提升长任务处理体验。
- 完成线程安全优化，全面支持多线程并发推理；配合 mineru-router，可一键实现多卡部署，轻松构建高并发、高吞吐解析系统。
- 完全移除了两个 AGPLv3 模型（doclayoutyolo 和 mfd_yolov8）以及一个 CC-BY-NC-SA 4.0 模型（layoutreader）的使用。

本次更新不仅是若干功能点的补强，更是 MinerU 在系统能力上的一次关键跃迁。我们重点解决了长文档解析过程中的内存峰值占用问题，通过滑动窗口、流式落盘等链路优化，让超长文档解析从“需要手动拆分、谨慎处理”走向“稳定可跑、规模可扩展”。同时，我们完成了线程安全优化，全面支持多线程并发推理，进一步提升了单机资源利用率与高并发场景下的运行稳定性。在此基础上，基于 mineru-router 与全新的 API / CLI 编排体系，MinerU 已具备一键多卡部署、多服务统一接入、任务自动负载均衡的能力，显著降低了大规模部署难度。至此，MinerU 正在从单一的数据生产工具，进一步演进为面向高并发、高吞吐场景的大规模文档解析基座，为企业级文档数据处理提供更稳定、更高效、更易扩展的基础设施能力。

📝 查看完整的更新日志了解更多历史版本信息

MinerU

项目简介

MinerU 是一款文档解析工具，可将 PDF、图片以及 DOCX、PPTX、XLSX 转化为机器可读格式（如 Markdown、JSON），便于后续检索、抽取与二次处理。 MinerU诞生于书生-浦语的预训练

Core symbols most depended-on inside this repo

append

called by 1010

mineru/cli/gradio_app.py

get

called by 892

mineru/cli/fast_api.py

pop

called by 77

mineru/model/utils/pytorchocr/modeling/heads/rec_unimernet_head.py

format

called by 59

mineru/model/mfr/pp_formulanet_plus_m/processors.py

update

called by 57

mineru/model/utils/pytorchocr/modeling/heads/rec_unimernet_head.py

mineru/model/mfr/pp_formulanet_plus_m/processors.py

read

called by 27

mineru/data/io/s3.py

Shape

Method 1,466

Function 1,339

Class 374

Route 15

Languages

Python99%

TypeScript1%

Modules by API surface

mineru/model/utils/pytorchocr/modeling/heads/rec_unimernet_head.py110 symbols

mineru/model/docx/docx_converter.py99 symbols

mineru/cli/router.py99 symbols

mineru/cli/gradio_app.py95 symbols

mineru/model/pptx/pptx_converter.py92 symbols

mineru/model/layout/pp_doclayoutv2.py89 symbols

mineru/model/utils/pytorchocr/modeling/backbones/rec_pphgnetv2.py85 symbols

mineru/model/mfr/unimernet/unimernet_hf/unimer_mbart/modeling_unimer_mbart.py85 symbols

mineru/model/utils/pytorchocr/modeling/backbones/rec_donut_swin.py73 symbols

mineru/cli/fast_api.py73 symbols

mineru/model/xlsx/xlsx_converter.py71 symbols

mineru/model/mfr/unimernet/unimernet_hf/unimer_swin/modeling_unimer_swin.py65 symbols

Dependencies from manifests, versioned

click8.1.7 · 1×

fastapi1×

httpx1×

huggingface-hub0.32.4 · 1×

json-repair0.46.2 · 1×

loguru0.7.2 · 1×

modelscope1.26.0 · 1×

numpy1.21.6 · 1×

opencv-python4.11.0.86 · 1×

pdftext0.6.3 · 1×

pillow11.0.0 · 1×

pypdf5.6.0 · 1×

For agents

$ claude mcp add MinerU \
  -- python -m otcore.mcp_server <graph>

⬇ download graph artifact