HyperAIHyperAI

Command Palette

Search for a command to run...

文档布局分析的图形方法

Wang Jilin ; Krumdick Michael ; Tong Baojia ; Halim Hamima ; Sokolov Maxim ; Barda Vadym ; Vendryes Delphine ; Tanner Chris

摘要

文档布局分析(DLA)是指检测文档中不同的语义内容并将其正确分类为适当的类别(例如,文本、标题、图表)。DLA流程使用户能够将文档转换为结构化的机器可读格式,从而用于许多有用的下游任务。现有的大多数最先进的(SOTA)DLA模型将文档表示为图像,忽略了电子生成PDF中丰富的元数据。通过直接利用这些元数据,我们将每一页PDF表示为一个结构化图,并将DLA问题框架为图分割和分类问题。我们引入了基于图的布局分析模型(GLAM),这是一种轻量级的图神经网络,在两个具有挑战性的DLA数据集上表现与现有SOTA模型相当——而其规模仅为现有模型的十分之一。特别是,参数量为400万的GLAM模型在DocLayNet数据集的11个类别中的5个类别上优于参数量超过1.4亿的领先计算机视觉模型。这两种模型的简单集成在DocLayNet上达到了新的最先进水平,mAP从76.8提高到80.8。总体而言,GLAM比SOTA模型效率高出5倍以上,使其成为DLA任务的一个有利工程选择。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供