HyperAIHyperAI

Command Palette

Search for a command to run...

Détection de texte courbé dans le monde réel : nouveau jeu de données et nouvelle solution

Yuliang Liu Lianwen Jin Shuaitao Zhang Sheng Zhang

Résumé

La détection de texte dans les images de scène a connu des progrès significatifs ces dernières années. Les méthodes de détection évoluent progressivement de la boîte englobante alignée sur les axes vers les boîtes orientées, puis vers les quadrilatères. Toutefois, les jeux de données actuels contiennent très peu de textes courbés, bien que ceux-ci soient fréquemment observés dans les images réelles, comme sur les enseignes, les étiquettes de produits, etc. Afin de sensibiliser davantage à la lecture de textes courbés dans des environnements réels, nous proposons dans cet article un nouveau jeu de données dédié au texte courbé, nommé CTW1500, comprenant plus de 10 000 annotations de texte réparties sur 1 500 images (1 000 pour l’entraînement et 500 pour le test). À partir de ce jeu de données, nous introduisons pour la première fois un détecteur de texte courbé basé sur les polygones (CTD), capable de détecter directement les textes courbés sans nécessiter de combinaison empirique. De plus, en intégrant de manière fluide une connexion récurrente transversale et longitudinale (TLOC), la méthode proposée est entièrement entraînable en une seule étape (end-to-end), permettant d’apprendre les relations intrinsèques entre les décalages de position. Cette caractéristique permet au CTD d’exploiter efficacement les informations contextuelles au lieu de prédire indépendamment chaque point, aboutissant à une détection plus lisse et plus précise. Nous proposons également deux méthodes de post-traitement simples mais efficaces, nommées suppression non-polygone (NPS) et suppression non-maximum polygonale (PNMS), pour améliorer davantage la précision de détection. En outre, l’approche proposée dans cet article est conçue de manière universelle, pouvant être entraînée aussi bien avec des boîtes englobantes rectangulaires que quadrilatérales, sans nécessiter d’ajustements supplémentaires. Les résultats expérimentaux sur le jeu de données CTW1500 montrent que notre méthode, même avec un modèle de base léger, dépasse largement les méthodes de pointe. En évaluant séparément sur les sous-ensembles de texte courbé ou non courbé, le modèle CTD + TLOC atteint toujours les meilleurs résultats. Le code source est disponible à l’adresse suivante : https://github.com/Yuliang-Liu/Curve-Text-Detector.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp