
摘要
近日,借助深度图模型的帮助,表格结构识别取得了显著进展。大多数方法利用表格元素的单一视觉线索,或者通过早期融合简单地将视觉线索与其他模态结合来推断其图关系。然而,无论是早期融合还是基于多种模态的单独推理,都无法适用于具有高度多样性的所有类型的表格结构。相反,对于不同的表格情况,不同模态需要以不同的模式相互协作。在学术界,表格结构推理中模态内-模态间交互的重要性尚未得到充分探索。本文将其定义为异构表格结构识别(Hetero-TSR)问题。为了填补这一空白,我们提出了一种新型的神经协同图机(NCGM),该模型配备了堆叠的协同模块,以分层的方式交替提取模态内上下文并建模范态间交互。该方法能够更稳健地表示表格元素的模态内-模态间关系,从而显著提高识别性能。我们还展示了所提出的NCGM可以根据模态内线索的上下文调节不同模态的协同模式,这对于处理多样化的表格情况至关重要。基准测试上的实验结果表明,我们的NCGM在各种挑战性场景下均达到了最先进的性能,并且大幅超越了其他当代方法。