2 个月前
DocLayout-YOLO:通过多样合成数据和全局到局部自适应感知增强文档布局分析
Zhiyuan Zhao, Hengrui Kang, Bin Wang, Conghui He

摘要
文档布局分析对于现实世界的文档理解系统至关重要,但其在速度和准确性之间面临着一个具有挑战性的权衡:多模态方法通过利用文本和视觉特征实现了更高的准确性,但存在显著的延迟问题;而单模态方法仅依赖视觉特征,虽然提供了更快的处理速度,却牺牲了准确性。为了解决这一困境,我们提出了一种新的方法——DocLayout-YOLO,该方法通过针对文档的具体优化,在预训练和模型设计两个方面提高了准确性,同时保持了速度优势。为了实现稳健的文档预训练,我们引入了Mesh-candidate BestFit算法,该算法将文档合成视为一个二维装箱问题(two-dimensional bin packing problem),生成了一个大规模且多样化的DocSynth-300K数据集。在DocSynth-300K数据集上进行预训练显著提升了各种文档类型下的微调性能。在模型优化方面,我们提出了一种全局到局部可控感受野模块(Global-to-Local Controllable Receptive Module),该模块能够更好地处理文档元素的多尺度变化。此外,为了验证不同文档类型下的性能表现,我们引入了一个复杂且具有挑战性的基准测试集——DocStructBench。大量的下游实验表明,DocLayout-YOLO在速度和准确性方面均表现出色。代码、数据和模型可在https://github.com/opendatalab/DocLayout-YOLO获取。