Champ de direction profond pour la détection de texte scénique irrégulier

La détection de texte en scène est une étape cruciale des systèmes de lecture de texte en scène. Les principaux défis résident dans les tailles et les rapports d'aspect considérablement variables, ainsi que dans les orientations et formes arbitraires. Grâce aux progrès récents en apprentissage profond, des performances impressionnantes ont été réalisées pour la détection de texte multi-orienté. Cependant, les performances baissent considérablement lorsqu'il s'agit de détecter des textes courbes en raison de la représentation limitée du texte (par exemple, boîtes englobantes horizontales, rectangles pivotés ou quadrilatères). La détection de textes courbes, qui sont en réalité très courants dans les scènes naturelles, suscite un vif intérêt. Dans cet article, nous présentons un nouveau détecteur de texte nommé TextField pour détecter des textes irréguliers en scène. Plus précisément, nous apprenons un champ de direction pointant vers l'extérieur à partir du contour de texte le plus proche pour chaque point de texte. Ce champ de direction est représenté par une image de vecteurs bidimensionnels et appris via un réseau neuronal convolutif entièrement convolutionnel. Il encode à la fois un masque binaire de texte et des informations directionnelles utilisées pour séparer les instances de texte adjacentes, ce qui constitue un défi pour les approches classiques basées sur la segmentation. Sur la base du champ de direction appris, nous appliquons un traitement postérieur morphologique simple mais efficace pour obtenir la détection finale. Les résultats expérimentaux montrent que le TextField proposé surpasse largement les méthodes d'avant-garde avec une marge importante (28 % et 8 %) sur deux jeux de données de texte courbe : Total-Text et CTW1500 respectivement, et atteint également des performances très compétitives sur des jeux de données multi-orientés : ICDAR 2015 et MSRA-TD500. De plus, TextField est robuste lorsqu'il s'agit de généraliser à des jeux de données inconnus. Le code est disponible à l'adresse suivante : https://github.com/YukangWang/TextField.