Une méthode de détection de texte de formes arbitraires dans les scènes naturelles améliorant la détection de texte

Comprendre le sens du texte présent dans des images de scènes naturelles, telles que des panneaux routiers ou des emblèmes de magasins, constitue un défi particulièrement élevé lorsque le texte est déformé par perspective ou lorsque les lettres sont artistiquement distordues. Nous proposons un cadre basé sur un pipeline pour la détection et la reconnaissance de texte (text spotting) capable de traiter du texte apparaissant dans diverses polices, formes et orientations sur des images de scènes naturelles à arrière-plan complexe. La contribution principale de notre travail réside dans la composante de détection de texte, que nous appelons UHT, abréviation de UNet, Heatmap et Textfill. UHT utilise un réseau UNet pour générer des cartes de chaleur des régions candidates contenant du texte, combinées à un algorithme de textfill permettant de délimiter précisément chaque mot par une forme polygonale ajustée. Notre méthode entraîne le UNet à partir de cartes de chaleur annotées, obtenues à partir des polygones de délimitation du texte fournis par les annotations de référence. Notre cadre complet de spotting de texte, baptisé UHTA, combine UHT avec le système d’état de l’art pour la reconnaissance de texte, ASTER. Des expériences menées sur quatre jeux de données publics et exigeants pour la détection de texte en scène (Total-Text, SCUT-CTW1500, MSRA-TD500 et COCO-Text) démontrent l’efficacité et la capacité de généralisation d’UHT dans la détection de texte multilingue (potentiellement tourné) ainsi que de texte courbé dans différentes écritures. Nos résultats expérimentaux sur le jeu de données Total-Text montrent que UHTA surpassent au moins de 9,1 points de pourcentage les quatre cadres d’état de l’art en matière de mesure F, ce qui indique que UHTA peut être utilisé comme système complet de détection et de reconnaissance de texte dans des applications réelles.