Réseaux de segmentation fusionnée pour la détection de texte scénique multi-orienté

Dans cet article, nous présentons un cadre novateur de bout en bout pour la détection de texte dans des scènes multi-orientées, abordant le problème sous l'angle d'une segmentation sémantique sensible aux instances. Nous introduisons les Réseaux de Segmentation de Texte Fusionnés (Fused Text Segmentation Networks), qui combinent des caractéristiques à plusieurs niveaux lors de l'extraction de caractéristiques, car les instances de texte peuvent nécessiter une expression de caractéristiques plus fine par rapport aux objets généraux. Ce modèle détecte et segmente les instances de texte conjointement et simultanément, tirant parti des avantages tant de la tâche de segmentation sémantique que de la tâche de détection d'objets basée sur les propositions régionales. Sans nécessiter aucune pipeline supplémentaire, notre approche dépasse l'état actuel de l'art sur les benchmarks de détection de texte dans des scènes multi-orientées : ICDAR2015 Incidental Scene Text et MSRA-TD500, atteignant respectivement un H-mean de 84,1 % et 82,0 %. De plus, nous fournissons une ligne de base sur Total-Text contenant du texte courbe, ce qui souligne l'efficacité de notre approche proposée.