il y a 11 jours

Attention implicite aux glyphes auto-supervisée pour la reconnaissance de texte

Tongkun Guan, Chaochen Gu, Jingzheng Tu, Xue Yang, Qi Feng, Yudi Zhao, Xiaokang Yang, Wei Shen

Résumé

Le mécanisme d’attention est devenu le module de facto dans les méthodes de reconnaissance de texte scénique (STR), en raison de sa capacité à extraire des représentations au niveau des caractères. Ces méthodes peuvent être classées en deux catégories selon la manière dont l’attention est calculée : celles fondées sur une attention implicite et celles basées sur une attention supervisée. L’attention implicite est apprise à partir d’étiquettes au niveau de la séquence de texte, tandis que l’attention supervisée repose sur des annotations de boîtes englobantes au niveau des caractères. L’attention implicite, qui peut extraire des régions spatiales grossières voire erronées comme zones d’attention caractères, est sujette à un problème d’alignement décalé (alignment drift). L’attention supervisée permet de réduire ce défaut, mais elle est spécifique à la catégorie de caractère, nécessitant des annotations de boîtes englobantes au niveau des caractères supplémentaires, ce qui s’avère fastidieux, et s’avère également très exigeante en mémoire lorsqu’elle est appliquée à des langues comptant un grand nombre de caractères. Pour remédier à ces limitations, nous proposons un nouveau mécanisme d’attention pour la STR, nommé attention implicite auto-supervisée aux glyphes (SIGA). SIGA délimite les structures des glyphes dans les images de texte en combinant une segmentation textuelle auto-supervisée et une alignement implicite de l’attention, lesquels servent de supervision pour améliorer la précision de l’attention sans nécessiter d’annotations au niveau des caractères supplémentaires. Les résultats expérimentaux montrent que SIGA surpassent de manière cohérente et significative les méthodes précédentes basées sur l’attention en termes de précision de l’attention et de performance finale de reconnaissance, sur des benchmarks contextuels publiques ainsi que sur nos propres benchmarks sans contexte.