HyperAIHyperAI
il y a 2 mois

PixelLink : Détection du texte en scène par segmentation d'instances

Dan Deng; Haifeng Liu; Xuelong Li; Deng Cai
PixelLink : Détection du texte en scène par segmentation d'instances
Résumé

La plupart des algorithmes de détection de texte en scène les plus avancés sont des méthodes basées sur l'apprentissage profond qui dépendent de la régression de boîtes englobantes et effectuent au moins deux types de prédictions : la classification texte/non-texte et la régression de position. La régression joue un rôle clé dans l'acquisition des boîtes englobantes dans ces méthodes, mais elle n'est pas indispensable car la prédiction texte/non-texte peut également être considérée comme une forme de segmentation sémantique qui contient en elle-même des informations de position complètes. Cependant, les instances de texte dans les images en scène se trouvent souvent très proches les unes des autres, ce qui les rend très difficiles à séparer par segmentation sémantique. Par conséquent, la segmentation d'instances est nécessaire pour résoudre ce problème. Dans cet article, nous proposons PixelLink, un nouvel algorithme de détection de texte en scène basé sur la segmentation d'instances. Les instances de texte sont d'abord segmentées en reliant les pixels appartenant à la même instance. Les boîtes englobantes du texte sont ensuite extraites directement du résultat de segmentation sans avoir recours à la régression de position. Les expériences montrent que, comparativement aux méthodes basées sur la régression, PixelLink peut atteindre des performances meilleures ou comparables sur plusieurs benchmarks, tout en nécessitant beaucoup moins d'itérations d'entraînement et moins de données d'entraînement.

PixelLink : Détection du texte en scène par segmentation d'instances | Articles de recherche récents | HyperAI