Command Palette
Search for a command to run...
Détection de texte scénique multi-orienté par localisation des coins et segmentation de région
Détection de texte scénique multi-orienté par localisation des coins et segmentation de région
Lyu Pengyuan Yao Cong Wu Wenhao Yan Shuicheng Bai Xiang
Résumé
Les méthodes les plus récentes basées sur l’apprentissage profond pour la détection de texte dans les scènes peuvent être grossièrement classées en deux catégories. La première traite le texte dans les scènes comme un type d’objet général, en suivant le paradigme de détection d’objets généraux pour localiser le texte par régression des positions des boîtes englobantes ; toutefois, elle est confrontée aux difficultés posées par les orientations arbitraires et les rapports d’aspect élevés du texte scènes. La deuxième catégorie segmente directement les régions textuelles, mais nécessite généralement un post-traitement complexe. Dans cet article, nous proposons une méthode qui combine les idées des deux approches tout en évitant leurs inconvénients respectifs. Nous suggérons de détecter le texte scènes en localisant les points d’angle des boîtes englobantes et en segmentant les régions textuelles selon leurs positions relatives. Lors de l’étape d’inférence, des boîtes candidates sont générées par échantillonnage et regroupement des points d’angle, puis notées par des cartes de segmentation et supprimées par NMS (Non-Maximum Suppression). Contrairement aux méthodes antérieures, notre approche permet naturellement de traiter le texte long et orienté, sans nécessiter de post-traitement complexe. Les expériences menées sur les jeux de données ICDAR2013, ICDAR2015, MSRA-TD500, MLT et COCO-Text montrent que l’algorithme proposé obtient des résultats meilleurs ou comparables en termes de précision et d’efficacité. En se basant sur VGG16, il atteint une mesure F de 84,3 % sur ICDAR2015 et 81,5 % sur MSRA-TD500.