Mask R-CNN avec Réseau d'Attention Pyramidal pour la Détection de Texte dans les Scènes

Dans cet article, nous présentons une nouvelle approche de détection de texte basée sur Mask R-CNN, capable de détecter de manière robuste le texte multiorienté et courbé dans des images de scènes naturelles, de manière unifiée. Pour améliorer les capacités de représentation des caractéristiques de Mask R-CNN pour les tâches de détection de texte, nous proposons d'utiliser le réseau Pyramid Attention Network (PAN) comme nouveau réseau principal de Mask R-CNN. Les expériences montrent que PAN peut supprimer plus efficacement les fausses alertes causées par des arrière-plans ressemblant au texte. Notre approche proposée a obtenu des performances supérieures sur les tâches de référence en détection de texte multiorienté (ICDAR-2015, ICDAR-2017 MLT) et courbé (SCUT-CTW1500), en utilisant uniquement des tests mono-échelle et mono-modèle.