HyperAIHyperAI
il y a 8 jours

Vers une détection unifiée de texte dans les scènes basée sur la génération de séquences

Taeho Kil, Seonghyeon Kim, Sukmin Seo, Yoonsik Kim, Daehee Kim
Vers une détection unifiée de texte dans les scènes basée sur la génération de séquences
Résumé

Les modèles de génération de séquences ont récemment progressé de manière significative dans l’unification de diverses tâches visuelles. Bien que certains modèles auto-régressifs aient montré des résultats prometteurs pour la détection de texte en bout en bout (end-to-end text spotting), ils reposent sur des formats de détection spécifiques, ignorent les différentes formes de texte et sont limités par le nombre maximal d’instances textuelles qu’ils peuvent détecter. Pour surmonter ces limitations, nous proposons UNITS, un détecteur de texte scénique unifié. Notre modèle intègre divers formats de détection, notamment les quadrilatères et les polygones, permettant ainsi la détection de texte quelle que soit sa forme. En outre, nous introduisons une technique de « prompting par point de départ » afin de permettre au modèle d’extraire du texte à partir d’un point de départ arbitraire, ce qui lui permet d’extraire un nombre de textes supérieur à celui sur lequel il a été entraîné. Les résultats expérimentaux démontrent que notre méthode atteint des performances compétitives par rapport aux méthodes de pointe. Une analyse approfondie confirme que UNITS peut extraire un plus grand nombre de textes que celui prévu lors de son entraînement. Nous mettons à disposition le code de notre méthode à l’adresse suivante : https://github.com/clovaai/units.

Vers une détection unifiée de texte dans les scènes basée sur la génération de séquences | Articles de recherche récents | HyperAI