Mask TextSpotter v3 : Réseau de proposition de segmentation pour une détection de texte en scène robuste

Les méthodes récentes entièrement entraînables pour la détection et la reconnaissance de texte dans les scènes, intégrant détection et reconnaissance dans un même cadre, ont connu des progrès significatifs. Toutefois, la plupart des détecteurs actuels de texte en forme arbitraire s'appuient sur des réseaux de propositions régionales (RPN) pour générer des propositions. Le RPN dépend fortement d'ancres prédéfinies manuellement, et ses propositions sont représentées sous forme de rectangles alignés aux axes. Cette approche pose des difficultés pour traiter des instances de texte à rapports d'aspect extrêmes ou à formes irrégulières, tandis que la représentation rectangulaire peut englober plusieurs instances voisines dans une seule proposition, notamment dans les cas de texte denses et orientés. Pour surmonter ces limitations, nous proposons Mask TextSpotter v3, un détecteur de texte en scène entièrement entraînable qui remplace le RPN par un Réseau de Propositions par Segmentations (SPN). Notre SPN est indépendant des ancres et fournit des représentations précises pour des propositions de forme arbitraire. Il se révèle donc supérieur au RPN pour la détection d'instances de texte à rapports d'aspect extrêmes ou à formes irrégulières. En outre, les propositions précises générées par le SPN permettent d'utiliser des caractéristiques RoI masquées afin de séparer efficacement les instances de texte voisines. En conséquence, Mask TextSpotter v3 est capable de traiter des instances de texte à rapports d'aspect extrêmes ou à formes irrégulières, sans que sa précision de reconnaissance soit affectée par des textes voisins ou le bruit de fond. Plus précisément, nous surpassons les méthodes de pointe de 21,9 % sur le jeu de données Rotated ICDAR 2013 (robustesse à la rotation), de 5,9 % sur Total-Text (robustesse à la forme), et atteignons des performances de pointe sur MSRA-TD500 (robustesse au rapport d'aspect). Le code est disponible à l'adresse suivante : https://github.com/MhLiao/MaskTextSpotterV3