Command Palette

Search for a command to run...

1 个月前

MinerU2.5:一种用于高效高分辨率文档解析的解耦视觉-语言模型

MinerU2.5:一种用于高效高分辨率文档解析的解耦视觉-语言模型

摘要

我们提出MinerU2.5,这是一个参数量为12亿的文档解析视觉-语言模型,在实现最先进识别准确率的同时,保持了卓越的计算效率。我们的方法采用一种从粗到细的两阶段解析策略,将全局版面分析与局部内容识别解耦。在第一阶段,模型对下采样后的图像进行高效版面分析,以识别结构化元素,从而避免处理高分辨率输入所带来的计算开销。在第二阶段,基于全局版面信息的引导,模型对从原始图像中提取的原始分辨率图像块进行针对性的内容识别,有效保留了密集文本、复杂公式和表格中的细粒度细节。为支持该策略,我们构建了一个全面的数据引擎,能够生成多样化、大规模的训练语料,用于模型的预训练与微调。最终,MinerU2.5展现出强大的文档解析能力,在多个基准测试中均达到最先进水平,无论是在通用模型还是领域专用模型中,均在各类识别任务上表现更优,同时显著降低了计算开销。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供