HyperAIHyperAI
il y a 11 jours

Sur la reconnaissance de textes de formes arbitraires avec une attention 2D auto-évaluée

Junyeop Lee, Sungrae Park, Jeonghun Baek, Seong Joon Oh, Seonghyeon Kim, Hwalsuk Lee
Sur la reconnaissance de textes de formes arbitraires avec une attention 2D auto-évaluée
Résumé

La reconnaissance de texte dans les scènes (STR) consiste à identifier des séquences de caractères présentes dans des images de scènes naturelles. Bien que des progrès considérables aient été réalisés dans les méthodes de STR, les approches actuelles échouent encore à reconnaître efficacement les textes de formes arbitraires, tels que les textes fortement courbés ou tournés, qui sont courants dans la vie quotidienne (par exemple, les enseignes de restaurants, les étiquettes de produits, les logos d'entreprises, etc.). Ce papier présente une nouvelle architecture pour la reconnaissance de textes de formes arbitraires, nommée Réseau de Reconnaissance de Texte à Attention Auto-Adaptative (SATRN), inspirée par l'architecture Transformer. SATRN exploite le mécanisme d'attention auto-adaptative afin de modéliser les dépendances spatiales bidimensionnelles (2D) entre les caractères dans une image de texte scénique. Grâce à la propagation complète du graphe dans l'attention auto-adaptative, SATRN est capable de reconnaître des textes disposés de manière arbitraire, même avec des espacements importants entre les caractères. En conséquence, SATRN surpasse les modèles existants de manière significative, avec une amélioration moyenne de 5,7 points de pourcentage sur les benchmarks de « texte irrégulier ». Nous fournissons des analyses empiriques qui éclairent les mécanismes internes du modèle ainsi que sa portée d'application (par exemple, textes tournés, textes multilignes). Le code source sera rendu disponible publiquement.

Sur la reconnaissance de textes de formes arbitraires avec une attention 2D auto-évaluée | Articles de recherche récents | HyperAI