il y a 2 mois

Télescope de texte scènes : super-résolution d’images de scènes centrée sur le texte

{xiangyang xue, Bin Li, Jingye Chen}

Résumé

La super-résolution d’images, souvent considérée comme une étape préalable à la reconnaissance de texte en scène, vise à restaurer des caractéristiques réalistes à partir d’images textuelles à faible résolution. Ce problème reste particulièrement difficile en raison des grandes variations observées dans les formes des textes, les polices utilisées, les arrière-plans, etc. Toutefois, la plupart des méthodes existantes s’appuient sur des cadres génériques de super-résolution pour traiter les images textuelles en scène, tout en négligeant les propriétés spécifiques au texte, telles que les dispositions au niveau de la ligne de texte ou les détails au niveau des caractères. Dans ce travail, nous proposons un cadre de super-résolution centré sur le texte, nommé Scene Text Telescope (STT). En ce qui concerne les dispositions au niveau de la ligne de texte, nous introduisons un réseau de super-résolution basé sur le Transformer (TBSRN), comprenant un module d’attention auto-attention permettant d’extraire efficacement des informations séquentielles, robuste face à des textes orientés arbitrairement. En ce qui concerne les détails au niveau des caractères, nous proposons un module sensible à la position et un module sensible au contenu, afin de mettre en évidence respectivement la position et le contenu de chaque caractère. Observant que certains caractères deviennent indiscernables à faible résolution, nous introduisons une fonction de perte par entropie croisée pondérée pour atténuer ce problème. Nous menons des expérimentations étendues, incluant la reconnaissance de texte avec des modèles pré-entraînés ainsi que l’évaluation de la qualité d’image, sur TextZoom et plusieurs benchmarks de reconnaissance de texte en scène, afin d’évaluer les images de super-résolution générées. Les résultats expérimentaux démontrent que notre STT parvient effectivement à produire des images de super-résolution spécifiquement adaptées au texte, et surpasser les méthodes existantes en termes de précision de reconnaissance.