
摘要
我们介绍了一种新的表格检测和结构识别方法,命名为RobusTabNet,该方法用于从异构文档图像中检测表格边界并重建每个表格的单元格结构。在表格检测方面,我们提出使用CornerNet作为新的区域提议网络来生成更高质量的表格提议以供Faster R-CNN使用,这显著提高了Faster R-CNN在表格检测中的定位精度。因此,我们的表格检测方法仅使用轻量级的ResNet-18骨干网络,在三个公开的表格检测基准数据集cTDaR TrackA、PubLayNet和IIIT-AR-13K上实现了最先进的性能。此外,我们提出了一种基于分割和合并的新表格结构识别方法。其中,引入了一个基于空间CNN的分离线预测模块,用于将每个检测到的表格分割成一个单元格网格;同时应用了基于Grid CNN的单元格合并模块来恢复跨越多个单元格的大单元格。由于空间CNN模块能够有效地在整个表格图像中传播上下文信息,我们的表格结构识别器能够稳健地识别具有大空白区域和几何畸变(甚至弯曲)的表格。得益于这两种技术,我们的表格结构识别方法在三个公开基准数据集SciTSR、PubTabNet和cTDaR TrackB2-Modern上也实现了最先进的性能。此外,我们在更具挑战性的内部数据集上进一步展示了我们的方法在识别复杂结构、大空白区域以及几何畸变或弯曲形状的表格方面的优势。