Détection de texte robuste à la forme avec un réseau d'expansion d'échelle progressive

La détection de texte dans les scènes a connu des progrès rapides, en particulier grâce au développement récent des réseaux neuronaux convolutifs. Cependant, deux défis persistent et entravent l'application industrielle de ces algorithmes. D'une part, la plupart des algorithmes de pointe nécessitent une boîte englobante quadrilatère, qui est imprécise pour localiser des textes de formes arbitraires. D'autre part, deux instances de texte proches l'une de l'autre peuvent entraîner une détection erronée couvrant les deux instances. Traditionnellement, l'approche basée sur la segmentation peut atténuer le premier problème mais échoue généralement à résoudre le deuxième défi. Pour relever ces deux défis, nous proposons dans cet article un nouveau réseau de progression d'échelle (Progressive Scale Expansion Network, PSENet) capable de détecter précisément des instances de texte de formes arbitraires. Plus précisément, PSENet génère des noyaux d'échelles différentes pour chaque instance de texte et étend progressivement le noyau d'échelle minimale jusqu'à l'instance de texte complète. Grâce aux marges géométriques importantes entre les noyaux d'échelle minimale, notre méthode est efficace pour séparer les instances de texte proches, facilitant ainsi l'utilisation des méthodes basées sur la segmentation pour détecter des instances de texte de formes arbitraires. De nombreuses expériences menées sur CTW1500, Total-Text, ICDAR 2015 et ICDAR 2017 MLT ont validé l'efficacité du PSENet. Notamment, sur CTW1500, un ensemble de données composé principalement de textes courbes longs, PSENet atteint un F-mesure de 74,3% à 27 images par seconde (FPS), et notre meilleur F-mesure (82,2%) dépasse les algorithmes d'état de l'art de 6,6%. Le code sera rendu disponible à l'avenir.