TPS++ : Spline mince à attention améliorée pour la reconnaissance de texte scènes

Les irrégularités de texte dans les scènes posent des défis majeurs aux systèmes de reconnaissance de texte. La rectification basée sur la transformation de type Thin-Plate Spline (TPS) est largement considérée comme une méthode efficace pour traiter ces irrégularités. Actuellement, le calcul des paramètres de transformation TPS dépend entièrement de la qualité des contours de texte prédits, sans tenir compte du contenu réel du texte, ce qui conduit fréquemment à des résultats insatisfaisants pour des textes fortement déformés. Dans ce travail, nous introduisons TPS++, une transformation TPS améliorée par mécanisme d’attention, la première à intégrer explicitement un mécanisme d’attention dans le processus de rectification du texte. TPS++ formule le calcul des paramètres comme un processus conjoint de régression des points de contrôle d’avant-plan et d’estimation de scores d’attention basés sur le contenu, calculés par un bloc d’attention à porte spécialement conçu. Ainsi, TPS++ construit un rectificateur plus flexible et conscient du contenu, produisant une correction de texte naturelle, plus lisible par le reconnaissant ultérieur. En outre, TPS++ partage une partie de l’architecture de caractéristiques (feature backbone) avec le reconnaissant, et effectue la rectification au niveau des caractéristiques plutôt qu’au niveau de l’image, entraînant uniquement une surcharge négligeable en termes de paramètres et de temps d’inférence. Des expériences sur des benchmarks publics montrent que TPS++ améliore de manière cohérente la reconnaissance, atteignant des performances de pointe (state-of-the-art). Par ailleurs, il se généralise bien sur différentes architectures de fond et différents modèles de reconnaissance. Le code est disponible à l’adresse suivante : https://github.com/simplify23/TPS_PP.