HyperAIHyperAI
il y a 8 jours

MANGO : un détecteur de texte scènique à une étape guidé par une attention masquée

Liang Qiao, Ying Chen, Zhanzhan Cheng, Yunlu Xu, Yi Niu, Shiliang Pu, Fei Wu
MANGO : un détecteur de texte scènique à une étape guidé par une attention masquée
Résumé

Récemment, la détection et la reconnaissance de texte en boucle complète (end-to-end) sont devenues un sujet de recherche populaire en raison de leurs avantages en matière d’optimisation globale et de haute maintenabilité dans les applications réelles. La plupart des méthodes tentent de développer diverses opérations sur les régions d’intérêt (RoI) afin de combiner la phase de détection et celle de reconnaissance de séquence dans un cadre en deux étapes. Toutefois, dans un tel cadre, la phase de reconnaissance est fortement sensible aux résultats de détection (par exemple, à la compacité des contours textuels). Pour résoudre ce problème, nous proposons dans cet article un nouveau cadre de détection de texte en une seule étape, nommé MANGO (Mask AttentioN Guided One-stage text spotting), dans lequel les séquences de caractères peuvent être reconnues directement sans recourir à des opérations RoI. Plus précisément, nous introduisons un module d’attention masquée sensible à la position, qui génère des poids d’attention pour chaque instance textuelle et ses caractères. Ce module permet d’attribuer différentes instances textuelles présentes dans une image à des canaux distincts de carte de caractéristiques, qui sont ensuite regroupés en un ensemble d’attributs d’instance. Enfin, un décodeur de séquence léger est appliqué pour produire les séquences de caractères. Il est à noter que MANGO s’adapte naturellement à la détection de texte de forme arbitraire et peut être entraîné en boucle complète à l’aide uniquement d’informations de position grossières (par exemple, boîtes englobantes rectangulaires) et d’étiquettes textuelles. Les résultats expérimentaux montrent que la méthode proposée atteint des performances compétitives, voire nouvelles meilleures performances sur les benchmarks classiques de détection de texte régulier et irrégulier, à savoir ICDAR 2013, ICDAR 2015, Total-Text et SCUT-CTW1500.

MANGO : un détecteur de texte scènique à une étape guidé par une attention masquée | Articles de recherche récents | HyperAI