Command Palette

Search for a command to run...

12 天前

MonkeyOCR:基于结构识别关系三元组范式的文档解析

Adam Tauman Kalai Yael Tauman Kalai Or Zamir

MonkeyOCR:基于结构识别关系三元组范式的文档解析

摘要

我们提出 MonkeyOCR,这是一种用于文档解析的视觉-语言模型,通过引入结构识别关系(SRR)三元组范式,推动了该领域的技术前沿。该设计简化了以往复杂的多工具处理流程(如 MinerU 所采用的模块化方法),同时避免了使用大型端到端模型(如 Qwen-VL 等大型多模态大语言模型)对整页内容进行处理所带来的效率低下问题。在 SRR 框架中,文档解析被抽象为三个核心问题:“它在哪里?”(结构)、“它是什么?”(识别)、“它是如何组织的?”(关系),分别对应布局分析、内容识别与逻辑排序。这种聚焦式的分解在准确率与处理速度之间取得了良好平衡,实现了高效且可扩展的处理能力,同时不牺牲精度。为训练与评估该方法,我们构建了 MonkeyDoc 数据集(迄今为止最全面的文档解析数据集),包含超过 390 万个实例,涵盖十余种文档类型,并覆盖中英文双语。实验结果表明,MonkeyOCR 在平均性能上比 MinerU 提升 5.1%,尤其在复杂内容(如公式识别提升 15.0%,表格识别提升 8.6%)方面表现突出。尤为引人注目的是,我们仅使用 30 亿参数的模型,便超越了参数量更大、性能更优的多个主流模型,包括 Qwen2.5-VL(720 亿参数)和 Gemini 2.5 Pro,在英文文档解析任务中达到当前最优的平均性能。此外,MonkeyOCR 在处理多页文档时速度显著更快,达到每秒 0.84 页,远超 MinerU 的 0.65 页/秒以及 Qwen2.5-VL-7B 的 0.12 页/秒。该 3B 参数模型可在单张 NVIDIA 3090 GPU 上高效部署,实现快速推理。

代码仓库

yuliang-liu/monkeyocr
官方
paddle
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MonkeyOCR:基于结构识别关系三元组范式的文档解析 | 论文 | HyperAI超神经