HyperAIHyperAI
il y a 2 mois

Détection de texte robuste à la forme avec un réseau d'expansion progressive d'échelle

Li, Xiang ; Wang, Wenhai ; Hou, Wenbo ; Liu, Ruo-Ze ; Lu, Tong ; Yang, Jian
Détection de texte robuste à la forme avec un réseau d'expansion progressive d'échelle
Résumé

Les défis de la détection robuste du texte en forme se situent à deux niveaux : 1) la plupart des détecteurs basés sur des boîtes de délimitation quadrangulaires ont du mal à localiser les textes de formes arbitraires, qui sont difficiles à enfermer parfaitement dans un rectangle ; 2) la plupart des détecteurs basés sur la segmentation pixel par pixel peuvent ne pas séparer les instances de texte très proches les unes des autres. Pour résoudre ces problèmes, nous proposons un nouveau réseau de progression d'expansion d'échelle (Progressive Scale Expansion Network, PSENet), conçu comme un détecteur basé sur la segmentation avec plusieurs prédictions pour chaque instance de texte. Ces prédictions correspondent à différents « noyaux » produits par le rétrécissement de l'instance de texte originale à différentes échelles. Par conséquent, la détection finale peut être réalisée grâce à notre algorithme progressif d'expansion d'échelle, qui étend graduellement les noyaux aux échelles minimales vers les instances de texte aux formes maximales et complètes. En raison des grandes marges géométriques entre ces noyaux minimaux, notre méthode est efficace pour distinguer les instances de texte adjacentes et est robuste face aux formes arbitraires. Les résultats d'avant-garde sur les benchmarks ICDAR 2015 et ICDAR 2017 MLT confirment davantage l'excellente efficacité de PSENet. Il convient de noter que PSENet surpassait le meilleur record précédent avec une amélioration absolue de 6,37 % sur le jeu de données SCUT-CTW1500 consacré au texte courbe. Le code sera disponible sur https://github.com/whai362/PSENet.

Détection de texte robuste à la forme avec un réseau d'expansion progressive d'échelle | Articles de recherche récents | HyperAI