2 个月前
TableNet:用于扫描文档图像端到端表格检测和表格数据提取的深度学习模型
Shubham Paliwal; Vishwanath D; Rohit Rahul; Monika Sharma; Lovekesh Vig

摘要
随着移动电话和扫描仪在拍摄和上传文档中的广泛应用,从非结构化文档图像(如零售收据、保险索赔表单和财务发票)中提取被困信息的需求变得日益迫切。实现这一目标的主要障碍在于这些图像通常包含表格形式的信息,而从表格子图像中提取数据则面临一系列独特的挑战。这包括在图像中准确检测表格区域,以及随后检测并提取所识别表格的行和列中的信息。尽管在表格检测方面已取得一些进展,但提取表格内容仍然是一个难题,因为这涉及到更精细的表格结构(行与列)识别。以往的方法尝试使用两个独立的模型分别解决表格检测和结构识别问题。本文提出了一种新颖的端到端深度学习模型——TableNet,用于同时进行表格检测和结构识别。该模型利用了表格检测和表格结构识别这两个任务之间的相互依赖关系,以分割出表格和列区域。随后,从已识别的表格子区域中通过基于语义规则的方法提取行信息。我们对提出的模型及提取方法在公开可用的ICDAR 2013和Marmot Table数据集上进行了评估,取得了最先进的结果。此外,我们还证明了引入额外的语义特征可以进一步提高模型性能,并且该模型在不同数据集之间表现出迁移学习的能力。本文的另一贡献是为Marmot数据提供了额外的表格结构注释,目前该数据集中仅包含用于表格检测的注释。