
摘要
识别非结构化数字文档的布局是在将这些文档解析为下游应用所需的结构化机器可读格式时的重要步骤。用于计算机视觉的深度神经网络已被证明是分析文档图像布局的有效方法。然而,目前公开可用的文档布局数据集比成熟的计算机视觉数据集小几个数量级。因此,模型必须通过从在传统计算机视觉数据集上预训练的基础模型进行迁移学习来训练。在本文中,我们通过自动匹配PubMed Central上公开的100多万篇PDF文章的XML表示和内容,开发了PubLayNet数据集,用于文档布局分析。该数据集的规模与成熟的计算机视觉数据集相当,包含超过36万张文档图像,其中标注了典型的文档布局元素。实验结果表明,基于PubLayNet训练的深度神经网络能够准确识别科学文章的布局。此外,预训练模型作为不同文档领域的迁移学习基础模型也更为有效。我们发布了该数据集(https://github.com/ibm-aur-nlp/PubLayNet),以支持更先进文档布局分析模型的开发和评估。