DeepSolo++ : Faire chanter seul le décodeur Transformer avec des points explicites pour la détection de texte multilingue

La détection et la reconnaissance de texte en bout à bout visent à intégrer la détection de texte dans des scènes et sa reconnaissance dans un cadre unifié. La gestion de la relation entre ces deux sous-tâches joue un rôle fondamental dans la conception de méthodes efficaces de détection de texte. Bien que les approches basées sur les Transformers éliminent le post-traitement heuristique, elles souffrent toujours du problème de synergie entre les sous-tâches ainsi que d'une faible efficacité d'entraînement. En outre, elles négligent l'exploration de la détection de texte multilingue, qui nécessite une tâche supplémentaire d'identification de script. Dans cet article, nous proposons DeepSolo++, une base simple inspirée de DETR, où un seul décodeur, utilisant des points explicites, traite simultanément la détection de texte, la reconnaissance et l'identification de script. Techniquement, pour chaque instance de texte, nous représentons la séquence de caractères sous forme de points ordonnés, modélisés par des requêtes de points apprenables. Après passage par un seul décodeur, les requêtes de points encodent les sémantiques textuelles et les positions nécessaires, permettant ainsi une décodification parallèle simple en ligne centrale, contours, script et confiance via des têtes de prédiction élémentaires. En outre, nous démontrons l’extraordinaire extensibilité de notre méthode, tant en termes de nombre de classes de caractères, de types de langues que de tâches. D’une part, notre méthode s’acquiert non seulement bien sur des scènes en anglais, mais maîtrise également la transcription de textes à structure de police complexe et à des milliers de classes de caractères, comme le chinois. D’autre part, DeepSolo++ atteint des performances supérieures sur la tâche d’identification de script ajoutée, avec une chaîne d’entraînement plus simple que les méthodes précédentes. Enfin, nos modèles sont également compatibles avec les annotations de lignes, qui exigent un coût d’étiquetage bien moindre que les polygones. Le code source est disponible à l’adresse \url{https://github.com/ViTAE-Transformer/DeepSolo}.