HyperAIHyperAI
il y a 2 mois

Détection de texte en scène avec un réseau de contexte pyramidal supervisé

Enze Xie; Yuhang Zang; Shuai Shao; Gang Yu; Cong Yao; Guangyao Li
Détection de texte en scène avec un réseau de contexte pyramidal supervisé
Résumé

Les méthodes de détection de texte dans les scènes basées sur l'apprentissage profond ont obtenu des résultats remarquables ces dernières années. Cependant, en raison de la grande diversité et de la complexité des scènes naturelles, les méthodes précédentes d'avant-garde en détection de texte peuvent encore produire une quantité considérable de faux positifs lorsqu'elles sont appliquées à des images capturées dans des environnements réels. Pour résoudre ce problème, principalement inspirés par Mask R-CNN, nous proposons dans cet article un modèle efficace pour la détection de texte dans les scènes, qui repose sur le réseau pyramidal de caractéristiques (Feature Pyramid Network, FPN) et la segmentation d'instances. Nous proposons un réseau pyramidal contextuel supervisé (Supervised Pyramid Context Network, SPCNET) pour localiser précisément les régions textuelles tout en réduisant les faux positifs. Grâce à l'orientation fournie par les informations sémantiques et au partage du FPN, le SPCNET obtient une performance significativement améliorée tout en introduisant un calcul supplémentaire marginal. Les expériences menées sur des jeux de données standards montrent que notre SPCNET dépasse clairement les méthodes d'avant-garde actuelles. Plus précisément, il atteint un F-mesure de 92,1 % sur ICDAR2013, 87,2 % sur ICDAR2015, 74,1 % sur ICDAR2017 MLT et 82,9 % sur Total-Text.

Détection de texte en scène avec un réseau de contexte pyramidal supervisé | Articles de recherche récents | HyperAI