2 个月前
CascadeTabNet:一种用于图像文档中表格检测和结构识别的端到端方法
Devashish Prasad; Ayan Gadpal; Kshitij Kapadni; Manish Visave; Kavita Sultanpure

摘要
一种用于文档图像中表格数据解释的自动表格识别方法主要涉及解决两个问题:表格检测和表格结构识别。早期的研究工作通常分别使用两种独立的方法来解决这两个问题。而近期的研究则强调了基于深度学习的解决方案的应用,并尝试设计端到端的解决方案。本文提出了一种改进的基于深度学习的端到端方法,利用单一卷积神经网络(CNN)模型同时解决表格检测和结构识别的问题。我们提出了级联表网(CascadeTabNet):一种基于级联掩码区域卷积神经网络高分辨率网络(Cascade mask R-CNN HRNet)的模型,该模型能够同时检测表格区域并识别已检测表格中的结构单元格。我们在ICDAR 2013、ICDAR 2019和TableBank公共数据集上评估了我们的结果。在ICDAR 2019比赛后的结果中,我们的方法在表格检测方面获得了第三名,而在ICDAR 2013和TableBank数据集上达到了最佳的准确性结果。此外,我们在ICDAR 2019表格结构识别数据集上也取得了最高的准确性结果。我们还展示了有效的迁移学习和图像增强技术,这些技术使得卷积神经网络能够在表格检测任务中达到非常高的准确性。代码和数据集已发布在:https://github.com/DevashishPrasad/CascadeTabNet