Command Palette
Search for a command to run...
Mask R-CNN avec Réseau d'Attention Pyramidal pour la Détection de Texte dans les Scènes
Mask R-CNN avec Réseau d'Attention Pyramidal pour la Détection de Texte dans les Scènes
Zhida Huang Zhuoyao Zhong Lei Sun Qiang Huo
Résumé
Dans cet article, nous présentons une nouvelle approche de détection de texte basée sur Mask R-CNN, capable de détecter de manière robuste le texte multiorienté et courbé dans des images de scènes naturelles, de manière unifiée. Pour améliorer les capacités de représentation des caractéristiques de Mask R-CNN pour les tâches de détection de texte, nous proposons d'utiliser le réseau Pyramid Attention Network (PAN) comme nouveau réseau principal de Mask R-CNN. Les expériences montrent que PAN peut supprimer plus efficacement les fausses alertes causées par des arrière-plans ressemblant au texte. Notre approche proposée a obtenu des performances supérieures sur les tâches de référence en détection de texte multiorienté (ICDAR-2015, ICDAR-2017 MLT) et courbé (SCUT-CTW1500), en utilisant uniquement des tests mono-échelle et mono-modèle.