HyperAIHyperAI
il y a 11 jours

Star-net : un réseau à attention spatiale résiduelle pour la reconnaissance de texte dans les scènes.

{and J. Han., K.-Y. K. Wong, W. Liu, Z. Su, C. Chen}
Résumé

Dans cet article, nous présentons un nouveau réseau neuronal appelé STAR-Net (SpaTial Attention Residue Network) pour la reconnaissance de textes dans les scènes. Notre STAR-Net intègre un mécanisme d’attention spatiale qui utilise un transformateur spatial afin de corriger les distorsions affectant les textes présents dans les images naturelles. Cela permet au extracteur de caractéristiques suivant de se concentrer sur la région textuelle rectifiée, sans être perturbé par les distorsions. De plus, notre STAR-Net exploite des blocs de convolution résiduels pour construire un extracteur de caractéristiques très profond, essentiel à l’extraction réussie de caractéristiques textuelles discriminantes pour cette tâche de reconnaissance fine. En combinant le mécanisme d’attention spatiale avec les blocs de convolution résiduels, notre STAR-Net constitue le réseau neuronal entraînable end-to-end le plus profond actuellement disponible pour la reconnaissance de textes dans les scènes. Des expériences ont été menées sur cinq jeux de données publiques de référence. Les résultats expérimentaux montrent que notre STAR-Net atteint une performance comparable aux méthodes de pointe pour les textes dans les scènes présentant peu de distorsions, et surpasse ces méthodes pour les textes présentant des distorsions importantes.

Star-net : un réseau à attention spatiale résiduelle pour la reconnaissance de texte dans les scènes. | Articles de recherche récents | HyperAI