Pont entre l’écart de performance entre DETR et R-CNN pour la détection d’objets graphiques dans les images de documents

Ce travail franchit une étape importante pour combler l'écart de performance entre DETR et R-CNN dans la détection d'objets graphiques. Les approches actuelles de détection d'objets graphiques ont bénéficié des récentes améliorations des méthodes de détection d'objets basées sur les CNN, réalisant ainsi des progrès remarquables. Récemment, les détecteurs basés sur les Transformers ont considérablement amélioré les performances de détection d'objets génériques, éliminant le besoin de caractéristiques conçues manuellement ou de procédures post-traitement telles que la Non-Maximum Suppression (NMS) en utilisant des requêtes d'objets. Cependant, l'efficacité de ces algorithmes de détection améliorés basés sur les Transformers n'a pas encore été vérifiée pour le problème de la détection d'objets graphiques. Inspirés par les derniers progrès réalisés avec DETR, nous utilisons le détecteur transformer existant avec quelques modifications pour la détection d'objets graphiques. Nous modifions les requêtes d'objets de différentes manières, en utilisant des points, des boîtes d'ancre et en ajoutant du bruit positif et négatif aux ancrages afin d'améliorer les performances. Ces modifications permettent une meilleure gestion des objets de tailles et de rapports hauteur/largeur variés, une plus grande robustesse face aux petites variations dans les positions et les tailles des objets, ainsi qu'une meilleure discrimination entre objets et non-objets dans l'image. Nous évaluons notre approche sur quatre jeux de données graphiques : PubTables, TableBank, NTable et PubLaynet. Après avoir intégré ces modifications des requêtes dans DETR, nous surpassons les travaux antérieurs et obtenons de nouveaux résultats state-of-the-art avec un mAP (mean Average Precision) respectivement de 96,9 % sur TableBank, 95,7 % sur PubLaynet et 99,3 % sur PubTables. Les résultats issus d'études abstraites exhaustives montrent que les méthodes basées sur les Transformers sont plus efficaces pour l'analyse documentaire similaire à d'autres applications. Nous espérons que cette étude attirera davantage l'attention sur la recherche relative à l'utilisation des détecteurs transformers dans l'analyse d'images documentaires.