Détecteur de Texte à Masque Pyramidal

La détection de texte en scène, une étape cruciale du système de reconnaissance de texte en scène, consiste à localiser automatiquement les instances de texte dans des images naturelles. Certaines tentatives récentes, profitant des avantages de Mask R-CNN, ont formulé la tâche de détection de texte en scène comme un problème de segmentation d'instances et ont obtenu des performances remarquables. Dans cet article, nous présentons un nouveau cadre basé sur Mask R-CNN nommé Pyramid Mask Text Detector (PMTD) pour traiter la détection de texte en scène. Contrairement aux masques binaires de texte générés par les méthodes existantes basées sur Mask R-CNN, notre PMTD effectue une régression au niveau pixel sous la direction d'une supervision sensible à l'emplacement, produisant ainsi un masque de texte plus informatif et doux pour chaque instance de texte. En ce qui concerne la génération des boîtes de texte, PMTD réinterprète le masque doux 2D obtenu dans l'espace 3D et introduit un nouvel algorithme de regroupement plan pour déduire la boîte de texte optimale sur la base de la forme 3D. Les expériences menées sur des jeux de données standards montrent que le PMTD proposé apporte une amélioration constante et notable, surpassant clairement les méthodes les plus avancées actuellement disponibles. Plus précisément, il atteint un F-mesure de 80,13 % sur le jeu de données ICDAR 2017 MLT.