HyperAI超神经

摘要

文档布局分析（DLA）是指检测文档中不同的语义内容并将其正确分类为适当的类别（例如，文本、标题、图表）。DLA流程使用户能够将文档转换为结构化的机器可读格式，从而用于许多有用的下游任务。现有的大多数最先进的（SOTA）DLA模型将文档表示为图像，忽略了电子生成PDF中丰富的元数据。通过直接利用这些元数据，我们将每一页PDF表示为一个结构化图，并将DLA问题框架为图分割和分类问题。我们引入了基于图的布局分析模型（GLAM），这是一种轻量级的图神经网络，在两个具有挑战性的DLA数据集上表现与现有SOTA模型相当——而其规模仅为现有模型的十分之一。特别是，参数量为400万的GLAM模型在DocLayNet数据集的11个类别中的5个类别上优于参数量超过1.4亿的领先计算机视觉模型。这两种模型的简单集成在DocLayNet上达到了新的最先进水平，mAP从76.8提高到80.8。总体而言，GLAM比SOTA模型效率高出5倍以上，使其成为DLA任务的一个有利工程选择。

摘要

Wang Jilin ; Krumdick Michael ; Tong Baojia ; Halim Hamima ; Sokolov Maxim ; Barda Vadym ; Vendryes Delphine ; Tanner Chris

摘要

用 AI 构建 AI

HyperAI Newsletters

Wang Jilin ; Krumdick Michael ; Tong Baojia ; Halim Hamima ; Sokolov Maxim ; Barda Vadym ; Vendryes Delphine ; Tanner Chris

摘要

用 AI 构建 AI

HyperAI Newsletters

Wang Jilin ; Krumdick Michael ; Tong Baojia ; Halim Hamima ; Sokolov Maxim ; Barda Vadym ; Vendryes Delphine ; Tanner Chris

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

文档布局分析的图形方法

Wang Jilin ; Krumdick Michael ; Tong Baojia ; Halim Hamima ; Sokolov Maxim ; Barda Vadym ; Vendryes Delphine ; Tanner Chris

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

文档布局分析的图形方法

Wang Jilin ; Krumdick Michael ; Tong Baojia ; Halim Hamima ; Sokolov Maxim ; Barda Vadym ; Vendryes Delphine ; Tanner Chris

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

文档布局分析的图形方法

Wang Jilin ; Krumdick Michael ; Tong Baojia ; Halim Hamima ; Sokolov Maxim ; Barda Vadym ; Vendryes Delphine ; Tanner Chris

摘要

用 AI 构建 AI

HyperAI Newsletters