
摘要
基于图像的表格识别是一项具有挑战性的任务,原因在于表格样式的多样性和表格结构的复杂性。大多数先前的方法侧重于非端到端的方法,将问题分为两个独立的子问题:表格结构识别和单元格内容识别,然后分别使用两个独立的系统来解决每个子问题。本文提出了一种用于基于图像的表格识别的端到端多任务学习模型。该模型由一个共享编码器、一个共享解码器和三个独立的解码器组成,这三个解码器分别用于学习表格识别的三个子任务:表格结构识别、单元格检测和单元格内容识别。整个系统可以轻松地以端到端的方式进行训练和推理。在实验中,我们在两个大规模数据集上评估了所提模型的性能:FinTabNet 和 PubTabNet。实验结果表明,所提模型在所有基准数据集上的表现均优于现有最先进方法。