GLASS : Attente Globale à Locale pour la Détection de Texte dans les Scènes

Ces dernières années, le paradigme dominant en détection et reconnaissance de texte (text spotting) consiste à combiner les tâches de détection de texte et de reconnaissance en une seule architecture end-to-end. Dans ce cadre, les deux tâches sont réalisées à partir d’une carte de caractéristiques globale partagée extraite de l’image d’entrée. Parmi les principaux défis auxquels les approches end-to-end sont confrontées figure la dégradation des performances lors de la reconnaissance de texte soumis à des variations d’échelle (texte plus petit ou plus grand) et à des angles de rotation arbitraires. Dans ce travail, nous abordons ces défis en proposant un nouveau mécanisme d’attention global-local pour le text spotting, appelé GLASS, qui fusionne les caractéristiques globales et locales. Les caractéristiques globales sont extraites à partir d’un modèle partagé (backbone), conservant ainsi les informations contextuelles provenant de toute l’image, tandis que les caractéristiques locales sont calculées individuellement sur des régions de mots redimensionnées et de haute résolution, rotationnées selon leur angle réel. L’information extraite à partir de ces régions locales atténue en grande partie les difficultés inhérentes aux variations d’échelle et aux rotations des mots. Nous présentons une analyse des performances en fonction des échelles et des angles, mettant en évidence une amélioration significative aux extrêmes de ces paramètres. En outre, nous introduisons une fonction de perte orientée qui supervise la tâche de détection, et montrons son apport à la fois à la détection et à la reconnaissance, quel que soit l’angle. Enfin, nous démontrons la généralité de GLASS en l’intégrant dans d’autres architectures de pointe pour le text spotting, ce qui améliore leur performance globale. Notre méthode atteint des résultats de pointe sur plusieurs benchmarks, y compris le nouveau benchmark TextOCR.