Conscience régionale des caractères pour la détection de texte

Les méthodes de détection de texte en scène basées sur les réseaux neuronaux ont émergé récemment et ont montré des résultats prometteurs. Les méthodes précédentes, formées avec des boîtes englobantes rigides au niveau du mot, présentent des limitations dans la représentation de la région textuelle sous forme arbitraire. Dans cet article, nous proposons une nouvelle méthode de détection de texte en scène pour détecter efficacement les zones textuelles en explorant chaque caractère et l'affinité entre les caractères. Pour surmonter le manque d'annotations au niveau individuel des caractères, notre cadre proposé exploite à la fois les annotations au niveau du caractère fournies pour les images synthétiques et les vérités terrain estimées au niveau du caractère pour les images réelles acquises par le modèle intermédiaire appris. Afin d'estimer l'affinité entre les caractères, le réseau est formé avec une nouvelle représentation de l'affinité (affinity). Des expériences approfondies sur six benchmarks, y compris les jeux de données TotalText et CTW-1500 qui contiennent des textes fortement courbés dans des images naturelles, montrent que notre détection de texte au niveau du caractère surpasse significativement les détecteurs de pointe actuels. Selon les résultats, notre méthode proposée garantit une grande flexibilité dans la détection d'images textuelles complexes en scène, telles que des textes orientés arbitrairement, courbés ou déformés.