Détecteur de texte en une seule passe avec attention régionale

Nous présentons un détecteur de texte à détection unique qui génère directement des boîtes englobantes au niveau du mot dans une image naturelle. Nous proposons un mécanisme d'attention qui identifie approximativement les régions de texte par le biais d'une carte d'attention apprise automatiquement. Cela réduit considérablement l'interférence du fond dans les caractéristiques convolutives, ce qui est essentiel pour produire une inférence précise des mots, en particulier à des tailles extrêmement petites. Ce processus aboutit à un modèle unique fonctionnant selon une approche de grossière à fine (coarse-to-fine). Contrairement aux détecteurs de texte basés sur les FCN récents qui enchaînent plusieurs modèles FCN pour obtenir une prédiction précise, notre modèle adopte une stratégie différente. De plus, nous avons développé un module inception hiérarchique qui agrège efficacement des caractéristiques inception multi-échelles. Cela améliore les détails locaux et encode également des informations contextuelles fortes, permettant au détecteur de fonctionner de manière fiable sur du texte multi-échelles et multi-orientations avec des images mono-échelle. Notre détecteur de texte atteint un F-mesure de 77% sur le benchmark ICDAR 2015, surpassant ainsi les résultats de pointe mentionnés dans [18, 28]. Une démonstration est disponible à l'adresse suivante : http://sstd.whuang.org/.