Détection de texte en scène avec un réseau de contexte pyramidal supervisé

Les méthodes de détection de texte dans les scènes basées sur l'apprentissage profond ont obtenu des résultats remarquables ces dernières années. Cependant, en raison de la grande diversité et de la complexité des scènes naturelles, les méthodes précédentes d'avant-garde en détection de texte peuvent encore produire une quantité considérable de faux positifs lorsqu'elles sont appliquées à des images capturées dans des environnements réels. Pour résoudre ce problème, principalement inspirés par Mask R-CNN, nous proposons dans cet article un modèle efficace pour la détection de texte dans les scènes, qui repose sur le réseau pyramidal de caractéristiques (Feature Pyramid Network, FPN) et la segmentation d'instances. Nous proposons un réseau pyramidal contextuel supervisé (Supervised Pyramid Context Network, SPCNET) pour localiser précisément les régions textuelles tout en réduisant les faux positifs. Grâce à l'orientation fournie par les informations sémantiques et au partage du FPN, le SPCNET obtient une performance significativement améliorée tout en introduisant un calcul supplémentaire marginal. Les expériences menées sur des jeux de données standards montrent que notre SPCNET dépasse clairement les méthodes d'avant-garde actuelles. Plus précisément, il atteint un F-mesure de 92,1 % sur ICDAR2013, 87,2 % sur ICDAR2015, 74,1 % sur ICDAR2017 MLT et 82,9 % sur Total-Text.