HyperAIHyperAI

Command Palette

Search for a command to run...

MANGO : un détecteur de texte scènique à une étape guidé par une attention masquée

Liang Qiao Ying Chen Zhanzhan Cheng Yunlu Xu Yi Niu Shiliang Pu Fei Wu

Résumé

Récemment, la détection et la reconnaissance de texte en boucle complète (end-to-end) sont devenues un sujet de recherche populaire en raison de leurs avantages en matière d’optimisation globale et de haute maintenabilité dans les applications réelles. La plupart des méthodes tentent de développer diverses opérations sur les régions d’intérêt (RoI) afin de combiner la phase de détection et celle de reconnaissance de séquence dans un cadre en deux étapes. Toutefois, dans un tel cadre, la phase de reconnaissance est fortement sensible aux résultats de détection (par exemple, à la compacité des contours textuels). Pour résoudre ce problème, nous proposons dans cet article un nouveau cadre de détection de texte en une seule étape, nommé MANGO (Mask AttentioN Guided One-stage text spotting), dans lequel les séquences de caractères peuvent être reconnues directement sans recourir à des opérations RoI. Plus précisément, nous introduisons un module d’attention masquée sensible à la position, qui génère des poids d’attention pour chaque instance textuelle et ses caractères. Ce module permet d’attribuer différentes instances textuelles présentes dans une image à des canaux distincts de carte de caractéristiques, qui sont ensuite regroupés en un ensemble d’attributs d’instance. Enfin, un décodeur de séquence léger est appliqué pour produire les séquences de caractères. Il est à noter que MANGO s’adapte naturellement à la détection de texte de forme arbitraire et peut être entraîné en boucle complète à l’aide uniquement d’informations de position grossières (par exemple, boîtes englobantes rectangulaires) et d’étiquettes textuelles. Les résultats expérimentaux montrent que la méthode proposée atteint des performances compétitives, voire nouvelles meilleures performances sur les benchmarks classiques de détection de texte régulier et irrégulier, à savoir ICDAR 2013, ICDAR 2015, Total-Text et SCUT-CTW1500.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp