Détection de texte courbe dans le monde réel : Nouveau jeu de données et nouvelle solution

La détection de texte en scène a connu d'importants progrès ces dernières années. Les méthodes de détection ont évolué des rectangles alignés sur les axes vers des rectangles rotatifs, puis jusqu'aux quadrangles. Cependant, les jeux de données actuels contiennent très peu de texte courbe, qui peut être largement observé dans les images de scène, telles que les panneaux indicateurs et les noms de produits. Pour attirer l'attention sur la lecture du texte courbe en milieu naturel, nous construisons dans cet article un jeu de données de texte courbe nommé CTW1500, qui comprend plus de 10 000 annotations de texte dans 1 500 images (1 000 pour l'entraînement et 500 pour le test). Sur la base de ce jeu de données, nous proposons pour la première fois un détecteur de texte courbe basé sur des polygones (CTD) capable de détecter directement le texte courbe sans combinaison empirique. De plus, en intégrant sans couture la connexion d'offset transversale et longitudinale récurrente (TLOC), la méthode proposée peut être entraînée de manière end-to-end pour apprendre la connexion inhérente entre les offsets positionnels. Ceci permet au CTD d'explorer des informations contextuelles plutôt que de prédire des points indépendamment, aboutissant à une détection plus fluide et précise. Nous proposons également deux méthodes simples mais efficaces d'après-traitement nommées suppression non-polygone (NPS) et suppression non-maximale polygone (PNMS) afin d'améliorer davantage la précision de détection. De plus, l'approche proposée dans cet article est conçue d'une manière universelle, ce qui lui permet également d'être entraînée avec des boîtes englobantes rectangulaires ou quadrilatérales sans effort supplémentaire. Les résultats expérimentaux sur CTW-1500 montrent que notre méthode, même avec un backbone léger, peut surpasser les méthodes state-of-the-art avec une marge importante. En évaluant uniquement sur le sous-ensemble courbe ou non-courbe, le CTD + TLOC peut toujours obtenir les meilleurs résultats. Le code est disponible à l'adresse suivante : https://github.com/Yuliang-Liu/Curve-Text-Detector.