Command Palette
Search for a command to run...

摘要
我们提出MinerU2.5,这是一个参数量为12亿的文档解析视觉-语言模型,在实现最先进识别准确率的同时,保持了卓越的计算效率。我们的方法采用一种从粗到细的两阶段解析策略,将全局版面分析与局部内容识别解耦。在第一阶段,模型对下采样后的图像进行高效版面分析,以识别结构化元素,从而避免处理高分辨率输入所带来的计算开销。在第二阶段,基于全局版面信息的引导,模型对从原始图像中提取的原始分辨率图像块进行针对性的内容识别,有效保留了密集文本、复杂公式和表格中的细粒度细节。为支持该策略,我们构建了一个全面的数据引擎,能够生成多样化、大规模的训练语料,用于模型的预训练与微调。最终,MinerU2.5展现出强大的文档解析能力,在多个基准测试中均达到最先进水平,无论是在通用模型还是领域专用模型中,均在各类识别任务上表现更优,同时显著降低了计算开销。