HyperAIHyperAI
il y a 11 jours

PGNet : Détection en temps réel de texte de forme arbitraire à l’aide d’un réseau de regroupement de points

Pengfei Wang, Chengquan Zhang, Fei Qi, Shanshan Liu, Xiaoqiang Zhang, Pengyuan Lyu, Junyu Han, Jingtuo Liu, Errui Ding, Guangming Shi
PGNet : Détection en temps réel de texte de forme arbitraire à l’aide d’un réseau de regroupement de points
Résumé

La lecture de textes de forme arbitraire a suscité un intérêt croissant dans la recherche. Toutefois, les méthodes actuelles de détection de texte (text spotters) sont principalement basées sur des architectures à deux étapes ou des approches fondées sur les caractères, qui souffrent soit de l’opération de suppression non maximale (Non-Maximum Suppression, NMS), soit des opérations de région d’intérêt (Region-of-Interest, RoI), soit de l’annotation au niveau des caractères. Dans ce travail, afin de résoudre ces limitations, nous proposons un nouveau réseau entièrement convolutif, nommé Point Gathering Network (PGNet), conçu pour la lecture en temps réel de textes de forme arbitraire. Le PGNet est une méthode de détection de texte à une seule phase, dans laquelle la carte de classification au niveau des pixels est apprise grâce à une nouvelle fonction de perte, la PG-CTC, qui élimine la nécessité d’annotations au niveau des caractères. Grâce à un décodeur PG-CTC, nous regroupons des vecteurs de classification de caractères de haut niveau à partir de l’espace bidimensionnel et les décodons en symboles textuels sans recourir à NMS ni à des opérations RoI, garantissant ainsi une haute efficacité. Par ailleurs, en modélisant les relations entre chaque caractère et ses voisins, nous introduisons un module de raffinement par graphe (Graph Refinement Module, GRM), qui permet d’optimiser la reconnaissance initiale et d’améliorer les performances en mode end-to-end. Les expérimentations montrent que la méthode proposée atteint une précision compétitive tout en améliorant de manière significative la vitesse d’exécution. En particulier, sur le jeu de données Total-Text, elle fonctionne à 46,7 images par seconde (FPS), dépassant largement les méthodes précédentes.

PGNet : Détection en temps réel de texte de forme arbitraire à l’aide d’un réseau de regroupement de points | Articles de recherche récents | HyperAI