Détection efficace et précise de texte de forme arbitraire avec un réseau d'agrégation de pixels

La détection de texte en scène, une étape cruciale des systèmes de lecture de texte en scène, a connu un développement rapide grâce aux réseaux neuronaux convolutifs. Néanmoins, deux défis majeurs persistent et entravent son déploiement dans les applications du monde réel. Le premier problème est le compromis entre la vitesse et la précision. Le second concerne la modélisation d'instances de texte de forme arbitraire. Récemment, certaines méthodes ont été proposées pour aborder la détection de texte de forme arbitraire, mais elles négligent rarement la vitesse du pipeline global, ce qui peut être insuffisant dans les applications pratiques.Dans cet article, nous proposons un détecteur de texte de forme arbitraire à la fois efficace et précis, appelé Réseau d'Aggrégation de Pixels (Pixel Aggregation Network, PAN), doté d'une tête de segmentation à faible coût computationnel et d'un traitement postérieur apprenable. Plus précisément, la tête de segmentation est composée d'un module d'amélioration pyramidale des caractéristiques (Feature Pyramid Enhancement Module, FPEM) et d'un module de fusion des caractéristiques (Feature Fusion Module, FFM). Le FPEM est un module en forme de U cascadeur qui peut introduire des informations multirésolution pour guider une meilleure segmentation. Le FFM peut rassembler les caractéristiques fournies par les FPEMs de différentes profondeurs en une caractéristique finale pour la segmentation. Le traitement postérieur apprenable est mis en œuvre par l'aggrégation des pixels (Pixel Aggregation, PA), qui peut aggréger précisément les pixels du texte par des vecteurs de similarité prédits.Des expériences menées sur plusieurs benchmarks standards ont validé la supériorité du PAN proposé. Il convient de noter que notre méthode peut atteindre un F-mesure compétitif de 79,9% à 84,2 images par seconde (FPS) sur CTW1500.