2 个月前
TRUST:一种基于分割的Transformer实现的准确且端到端的表格结构识别器
Zengyuan Guo; Yuechen Yu; Pengyuan Lv; Chengquan Zhang; Haojie Li; Zhihui Wang; Kun Yao; Jingtuo Liu; Jingdong Wang

摘要
表格结构识别是文档图像分析领域的一个重要组成部分。其难点在于需要同时解析每个单元格的物理坐标和逻辑索引。然而,现有的方法很难同时实现这两个目标,尤其是在表格分割线模糊或倾斜的情况下。本文提出了一种基于Transformer的准确且端到端的表格结构识别方法,称为TRUST(Transformer-based Row and Column Splitting and Table Grid Merging)。Transformer因其全局计算、完美的记忆能力和并行计算特性而适用于表格结构识别。通过引入创新的基于查询的分割模块(Query-based Splitting Module)和基于顶点的合并模块(Vertex-based Merging Module),我们将表格结构识别问题解耦为两个联合优化子任务:多方向表格行/列分割和表格网格合并。基于查询的分割模块通过Transformer网络从长依赖关系中学习强大的上下文信息,准确预测多方向的表格行/列分隔符,并据此获得表格的基本网格。基于顶点的合并模块能够聚合相邻基本网格之间的局部上下文信息,提供准确合并属于同一跨单元格的基本网格的能力。我们在包括PubTabNet和SynthTable在内的多个流行基准数据集上进行了实验,结果表明我们的方法达到了新的最先进水平。特别是,TRUST在PubTabNet上的运行速度达到10帧/秒(FPS),远远超过了之前的方法。