TSRFormer : Reconnaissance de la structure des tableaux avec des Transformers

Nous présentons une nouvelle approche de reconnaissance de la structure des tableaux (TSR), appelée TSRFormer, capable de reconnaître robustement les structures de tableaux complexes avec des distorsions géométriques à partir d'images de tableaux variées. Contrairement aux méthodes précédentes, nous formulons la prédiction des lignes de séparation des tableaux comme un problème de régression linéaire plutôt qu'un problème de segmentation d'image et proposons une nouvelle approche en deux étapes basée sur DETR pour la prédiction des séparateurs, dénommée Separator REgression TRansformer (SepRETR), qui prédit directement les lignes de séparation à partir des images de tableaux. Pour rendre le cadre DETR en deux étapes efficace et performant pour la tâche de prédiction des lignes de séparation, nous proposons deux améliorations : 1) Une stratégie d'appariement renforcée par des a priori pour résoudre le problème de convergence lente de DETR ; 2) Un nouveau module d'attention croisée permettant d'échantillonner directement des caractéristiques à partir d'une carte de caractéristiques convolutive haute résolution, afin d'atteindre une précision élevée en localisation avec un faible coût computationnel. Après la prédiction des lignes de séparation, un module simple basé sur un réseau relationnel est utilisé pour fusionner les cellules et restaurer les cellules fusionnées. Grâce à ces nouvelles techniques, notre TSRFormer atteint des performances d'état de l'art sur plusieurs jeux de données基准数据集,包括SciTSR、PubTabNet和WTW(请注意这里我保留了原文的数据集名称,因为它们通常是专有名词)。此外,我们在更具挑战性的内部真实世界数据集上验证了我们方法对复杂结构、无边框单元格、大空白区域、空或融合单元格以及扭曲甚至弯曲形状的表格的鲁棒性。为了确保数据集名称的准确性,以下是修正后的版本:Grâce à ces nouvelles techniques, notre TSRFormer atteint des performances d'état de l'art sur plusieurs jeux de données benchmark, notamment SciTSR, PubTabNet et WTW. De plus, nous avons validé la robustesse de notre approche face aux tableaux présentant des structures complexes, des cellules sans bordure, des espaces blancs importants, des cellules vides ou fusionnées ainsi que des formes distordues ou même courbes dans un jeu de données interne plus réaliste et plus difficile.