
摘要
表格结构识别是使机器理解表格的关键组成部分,其主要任务是识别表格的内部结构。然而,由于表格结构和样式的复杂性和多样性,将表格数据解析为机器易于理解的结构化格式非常困难,尤其是对于复杂的表格。在本文中,我们介绍了一种名为分割、嵌入和合并(Split, Embed and Merge, SEM)的高精度表格结构识别器。我们的模型以表格图像作为输入,能够准确识别简单或复杂表格的结构。SEM 主要由三个部分组成:分割器、嵌入器和合并器。在第一阶段,我们应用分割器预测表格行(列)分隔符的潜在区域,并获得表格的精细网格结构。第二阶段,在充分考虑表格中的文本信息后,我们将每个表格网格从视觉和语言模态输出的特征进行融合。此外,通过添加额外的语义特征,我们在实验中实现了更高的精度。最后,我们以自回归的方式处理这些基本表格网格的合并过程。合并结果通过注意力机制学习得到。在我们的实验中,SEM 在 SciTSR 数据集上达到了平均 97.11% 的 F1 值,显著优于其他方法。在 ICDAR 2021 科学文献解析竞赛的任务 B 中,我们在复杂表格项目中获得了第一名,在所有表格项目中获得了第三名。在其他公开可用数据集上的广泛实验也表明,我们的模型达到了最先进的水平。