一、教程简介

MinerU2.5-2509-1.2B 是由 OpenDataLab 与上海 AI 实验室于 2025 年 9 月推出的视觉语言模型，专为高精度、高效率的文档解析任务而设计。它是 MinerU 系列的最新迭代版本，聚焦于将 PDF 等复杂格式文档转化为结构化的机器可读数据（如 Markdown 、 JSON 等）。相关论文成果为 MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing 。

本教程采用资源为单卡 RTX 4090 。

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用步骤

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。

参数说明

Enable formula recognition：是否启用公式识别，启用后，系统会识别文档中的数学公式并将其转换为 LaTeX 格式。

Enable table recognition：是否启动表格识别功能，启用后，系统会识别文档中的表格并将其转换为 HTML 格式。

Language：用于指定文档的语言。它可以提高 OCR 的准确率。

orce enable OCR：强制启用 OCR 功能。

引用信息

本项目引用信息如下：

@misc{niu2025mineru25decoupledvisionlanguagemodel, title={MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing}, author={Junbo Niu and Zheng Liu and Zhuangcheng Gu and Bin Wang and Linke Ouyang and Zhiyuan Zhao and Tao Chu and Tianyao He and Fan Wu and Qintong Zhang and Zhenjiang Jin and others}, year={2025}, eprint={2509.22186}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2509.22186}, }

HyperAI

运行此教程在 Discord 上讨论

日期

4 个月前

大小

708.79 MB

标签

OCR

许可证

AGPL-3.0

GitHub

opendatalab/MinerU/

论文 URL

2509.22186

一、教程简介

本教程采用资源为单卡 RTX 4090 。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用步骤

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。

参数说明

Enable formula recognition：是否启用公式识别，启用后，系统会识别文档中的数学公式并将其转换为 LaTeX 格式。
Enable table recognition：是否启动表格识别功能，启用后，系统会识别文档中的表格并将其转换为 HTML 格式。
Language：用于指定文档的语言。它可以提高 OCR 的准确率。
orce enable OCR：强制启用 OCR 功能。

引用信息

本项目引用信息如下：

@misc{niu2025mineru25decoupledvisionlanguagemodel,
      title={MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing}, 
      author={Junbo Niu and Zheng Liu and Zhuangcheng Gu and Bin Wang and Linke Ouyang and Zhiyuan Zhao and Tao Chu and Tianyao He and Fan Wu and Qintong Zhang and Zhenjiang Jin and others},
      year={2025},
      eprint={2509.22186},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2509.22186}, 
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

4 个月前

大小

708.79 MB

标签

OCR

许可证

AGPL-3.0

GitHub

opendatalab/MinerU/

论文 URL

2509.22186

一、教程简介

本教程采用资源为单卡 RTX 4090 。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用步骤

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。

参数说明

Enable formula recognition：是否启用公式识别，启用后，系统会识别文档中的数学公式并将其转换为 LaTeX 格式。
Enable table recognition：是否启动表格识别功能，启用后，系统会识别文档中的表格并将其转换为 HTML 格式。
Language：用于指定文档的语言。它可以提高 OCR 的准确率。
orce enable OCR：强制启用 OCR 功能。

引用信息

本项目引用信息如下：

@misc{niu2025mineru25decoupledvisionlanguagemodel,
      title={MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing}, 
      author={Junbo Niu and Zheng Liu and Zhuangcheng Gu and Bin Wang and Linke Ouyang and Zhiyuan Zhao and Tao Chu and Tianyao He and Fan Wu and Qintong Zhang and Zhenjiang Jin and others},
      year={2025},
      eprint={2509.22186},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2509.22186}, 
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

PaddleOCR-VL：多模态文档解析

3 个月前

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

2 个月前

Chandra：高精度文档 OCR

2 个月前

MonkeyOCR：基于结构-识别-关系三元组范式的文档解析

3 个月前

OCRFlux-3B：智能文本识别工具包

3 个月前

HunyuanOCR：腾讯混元端到端 OCR

2 个月前

kyutai-tts-1.6 b-en_fr 音频生成

1 个月前

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

1 个月前

Z-Image-Turbo：高效 6B 参数图像生成模型

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

MinerU2.5-2509-1.2B：文档解析 Demo

一、教程简介

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用步骤

引用信息

用 AI 构建 AI

HyperAI Newsletters

Command Palette

MinerU2.5-2509-1.2B：文档解析 Demo

一、教程简介

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用步骤

引用信息

相关教程

PaddleOCR-VL：多模态文档解析

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

Chandra：高精度文档 OCR

MonkeyOCR：基于结构-识别-关系三元组范式的文档解析

OCRFlux-3B：智能文本识别工具包

HunyuanOCR：腾讯混元端到端 OCR

kyutai-tts-1.6 b-en_fr 音频生成

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

Z-Image-Turbo：高效 6B 参数图像生成模型

用 AI 构建 AI

HyperAI Newsletters

Command Palette

MinerU2.5-2509-1.2B：文档解析 Demo

一、教程简介

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用步骤

引用信息

相关教程

PaddleOCR-VL：多模态文档解析

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

Chandra：高精度文档 OCR

MonkeyOCR：基于结构-识别-关系三元组范式的文档解析

OCRFlux-3B：智能文本识别工具包

HunyuanOCR：腾讯混元端到端 OCR

kyutai-tts-1.6 b-en_fr 音频生成

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

Z-Image-Turbo：高效 6B 参数图像生成模型

用 AI 构建 AI

HyperAI Newsletters

相关教程

PaddleOCR-VL：多模态文档解析

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

Chandra：高精度文档 OCR

MonkeyOCR：基于结构-识别-关系三元组范式的文档解析

OCRFlux-3B：智能文本识别工具包

HunyuanOCR：腾讯混元端到端 OCR

kyutai-tts-1.6 b-en_fr 音频生成

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

Z-Image-Turbo：高效 6B 参数图像生成模型

相关教程

PaddleOCR-VL：多模态文档解析

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

Chandra：高精度文档 OCR

MonkeyOCR：基于结构-识别-关系三元组范式的文档解析

OCRFlux-3B：智能文本识别工具包

HunyuanOCR：腾讯混元端到端 OCR

kyutai-tts-1.6 b-en_fr 音频生成

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

Z-Image-Turbo：高效 6B 参数图像生成模型