TextDragon : Un cadre complet pour la détection de texte de forme arbitraire

La plupart des méthodes existantes de détection de texte se concentrent soit sur des textes horizontaux ou orientés, soit effectuent la détection de textes à forme arbitraire à l’aide d’annotations au niveau des caractères. Dans cet article, nous proposons un nouveau cadre de détection et de reconnaissance de texte en vue de traiter des textes de forme arbitraire de manière end-to-end, en n’utilisant que des annotations au niveau des mots ou des lignes pour l’entraînement. Inspirés par le nom de TextSnake, qui n’est qu’un modèle de détection, nous appelons le cadre proposé TextDragon. Dans TextDragon, un détecteur de texte est conçu pour décrire la forme du texte à l’aide d’une suite de quadrilatères, permettant ainsi de gérer efficacement des textes de formes arbitraires. Pour extraire des régions de texte arbitraires à partir des cartes de caractéristiques, nous introduisons un nouvel opérateur différentiable appelé RoISlide, qui constitue l’élément clé reliant la détection de texte à forme arbitraire à sa reconnaissance. À partir des caractéristiques extraites via RoISlide, un reconnaissseur de texte basé sur un réseau de neurones convolutif (CNN) et une méthode CTC est mis en œuvre, rendant le cadre indépendant de l’étiquetage des positions des caractères. La méthode proposée atteint des performances de pointe sur deux benchmarks de texte courbé, CTW1500 et Total-Text, et des résultats compétitifs sur le jeu de données ICDAR 2015.