A3S : Apprentissage adversaire de représentations sémantiques pour la détection de texte dans les scènes

La détection et la reconnaissance de texte dans les scènes naturelles (scene-text spotting) est une tâche qui consiste à prédire une région textuelle sur des images de scènes naturelles tout en reconnaissant simultanément les caractères qu’elle contient. Cette tâche a suscité un intérêt croissant ces dernières années en raison de ses nombreuses applications. La recherche existante s’est principalement concentrée sur l’amélioration de la détection des régions textuelles, au détriment de la reconnaissance du texte. En conséquence, bien que l’exactitude de la détection ait été améliorée, l’exactitude en bout à bout reste insuffisante. En effet, les textes présents dans les images de scènes naturelles ne sont généralement pas des chaînes aléatoires de caractères, mais des chaînes significatives, c’est-à-dire des mots. Dans cette optique, nous proposons une méthode d’apprentissage adversaire des représentations sémantiques pour la détection et la reconnaissance de texte dans les scènes (A3S), visant à améliorer l’exactitude en bout à bout, y compris la reconnaissance du texte. A3S prédit simultanément des caractéristiques sémantiques dans la région textuelle détectée, au lieu de se contenter de reconnaître le texte à partir des caractéristiques visuelles existantes. Les résultats expérimentaux obtenus sur des jeux de données publiques démontrent que la méthode proposée atteint une précision supérieure à celle des autres approches.