2 个月前
文档布局分析的图形方法
Wang, Jilin ; Krumdick, Michael ; Tong, Baojia ; Halim, Hamima ; Sokolov, Maxim ; Barda, Vadym ; Vendryes, Delphine ; Tanner, Chris

摘要
文档布局分析(DLA)是指检测文档中不同的语义内容并将其正确分类为适当的类别(例如,文本、标题、图表)。DLA流程使用户能够将文档转换为结构化的机器可读格式,从而用于许多有用的下游任务。现有的大多数最先进的(SOTA)DLA模型将文档表示为图像,忽略了电子生成PDF中丰富的元数据。通过直接利用这些元数据,我们将每一页PDF表示为一个结构化图,并将DLA问题框架为图分割和分类问题。我们引入了基于图的布局分析模型(GLAM),这是一种轻量级的图神经网络,在两个具有挑战性的DLA数据集上表现与现有SOTA模型相当——而其规模仅为现有模型的十分之一。特别是,参数量为400万的GLAM模型在DocLayNet数据集的11个类别中的5个类别上优于参数量超过1.4亿的领先计算机视觉模型。这两种模型的简单集成在DocLayNet上达到了新的最先进水平,mAP从76.8提高到80.8。总体而言,GLAM比SOTA模型效率高出5倍以上,使其成为DLA任务的一个有利工程选择。