DeepSolo : Faire chanter le décodeur Transformer avec des points explicites pour la détection de texte

La détection et la reconnaissance de texte en bout à bout visent à intégrer la détection de texte en scène et sa reconnaissance dans un cadre unifié. La gestion de la relation entre ces deux sous-tâches joue un rôle fondamental dans la conception de méthodes efficaces. Bien que les approches basées sur les Transformers éliminent le post-traitement heuristique, elles souffrent toujours d’un problème de synergie entre les sous-tâches et d’une faible efficacité d’entraînement. Dans cet article, nous proposons DeepSolo, une base simple inspirée de DETR, qui permet à un seul décodeur, utilisant des points explicites, de réaliser simultanément la détection et la reconnaissance de texte. Techniquement, pour chaque instance de texte, nous représentons la séquence de caractères par des points ordonnés et les modélisons à l’aide de requêtes de points explicites apprenables. Après passage par un seul décodeur, les requêtes de points encodent les sémantiques textuelles et les positions nécessaires, permettant ainsi une décodification parallèle simple en ligne centrale, frontières, script et confiance via des têtes de prédiction très élémentaires. En outre, nous introduisons un critère de correspondance textuelle afin de fournir des signaux de supervision plus précis, favorisant ainsi un entraînement plus efficace. Des expériences quantitatives sur des benchmarks publics démontrent que DeepSolo surpasser les méthodes de l’état de l’art précédentes tout en offrant une meilleure efficacité d’entraînement. En outre, DeepSolo est également compatible avec les annotations de lignes, qui nécessitent beaucoup moins de coût d’étiquetage que les polygones. Le code est disponible à l’adresse suivante : https://github.com/ViTAE-Transformer/DeepSolo.