TextScanner : Lecture des caractères dans l'ordre pour une reconnaissance robuste du texte scènes

Porté par le deep learning et la grande quantité de données, la reconnaissance de texte dans les scènes a connu un développement rapide ces dernières années. Auparavant, les méthodes basées sur les réseaux récurrents avec mécanisme d’attention dominaient ce domaine, mais elles souffraient du problème de drift d’attention dans certaines situations. Récemment, les algorithmes fondés sur la segmentation sémantique se sont avérés efficaces pour reconnaître des textes de formes variées (horizontales, orientées, courbées). Toutefois, ces approches peuvent générer des caractères fantômes ou manquer des caractères réels, car elles dépendent fortement d’une étape de seuillage appliquée aux cartes de segmentation. Pour relever ces défis, nous proposons dans cet article une approche alternative, nommée TextScanner, pour la reconnaissance de texte dans les scènes. TextScanner présente trois caractéristiques principales : (1) Fondamentalement, elle appartient à la famille des méthodes de segmentation sémantique, car elle génère des cartes de segmentation pixel-par-pixel à plusieurs canaux pour classer les caractères, leurs positions et leur ordre ; (2) Parallèlement, tout comme les méthodes basées sur les RNN-attention, elle utilise un réseau récurrent pour modéliser le contexte ; (3) En outre, elle effectue une prédiction parallèle de la position et de la classe des caractères, tout en garantissant que les caractères soient transcrits dans l’ordre correct. Les expérimentations sur des jeux de données standard montrent que TextScanner surpasser les méthodes de pointe actuelles. De plus, TextScanner démontre une supériorité marquée dans la reconnaissance de textes plus complexes, tels que les transcriptions chinoises, ainsi que dans l’alignement précis avec les caractères cibles.