Command Palette
Search for a command to run...
Détection de texte courbé dans le monde réel : nouveau jeu de données et nouvelle solution
Détection de texte courbé dans le monde réel : nouveau jeu de données et nouvelle solution
Yuliang Liu Lianwen Jin Shuaitao Zhang Sheng Zhang
Résumé
La détection de texte dans les images de scène a connu des progrès significatifs ces dernières années. Les méthodes de détection évoluent progressivement de la boîte englobante alignée sur les axes vers les boîtes orientées, puis vers les quadrilatères. Toutefois, les jeux de données actuels contiennent très peu de textes courbés, bien que ceux-ci soient fréquemment observés dans les images réelles, comme sur les enseignes, les étiquettes de produits, etc. Afin de sensibiliser davantage à la lecture de textes courbés dans des environnements réels, nous proposons dans cet article un nouveau jeu de données dédié au texte courbé, nommé CTW1500, comprenant plus de 10 000 annotations de texte réparties sur 1 500 images (1 000 pour l’entraînement et 500 pour le test). À partir de ce jeu de données, nous introduisons pour la première fois un détecteur de texte courbé basé sur les polygones (CTD), capable de détecter directement les textes courbés sans nécessiter de combinaison empirique. De plus, en intégrant de manière fluide une connexion récurrente transversale et longitudinale (TLOC), la méthode proposée est entièrement entraînable en une seule étape (end-to-end), permettant d’apprendre les relations intrinsèques entre les décalages de position. Cette caractéristique permet au CTD d’exploiter efficacement les informations contextuelles au lieu de prédire indépendamment chaque point, aboutissant à une détection plus lisse et plus précise. Nous proposons également deux méthodes de post-traitement simples mais efficaces, nommées suppression non-polygone (NPS) et suppression non-maximum polygonale (PNMS), pour améliorer davantage la précision de détection. En outre, l’approche proposée dans cet article est conçue de manière universelle, pouvant être entraînée aussi bien avec des boîtes englobantes rectangulaires que quadrilatérales, sans nécessiter d’ajustements supplémentaires. Les résultats expérimentaux sur le jeu de données CTW1500 montrent que notre méthode, même avec un modèle de base léger, dépasse largement les méthodes de pointe. En évaluant séparément sur les sous-ensembles de texte courbé ou non courbé, le modèle CTD + TLOC atteint toujours les meilleurs résultats. Le code source est disponible à l’adresse suivante : https://github.com/Yuliang-Liu/Curve-Text-Detector.