HyperAIHyperAI
il y a 16 jours

DPText-DETR : Vers une détection de texte scénique améliorée grâce à des points dynamiques dans les Transformers

Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Bo Du, Dacheng Tao
DPText-DETR : Vers une détection de texte scénique améliorée grâce à des points dynamiques dans les Transformers
Résumé

Récemment, les méthodes basées sur les Transformers, qui prédise les coordonnées des points d’un polygone ou les points de contrôle des courbes de Bézier pour localiser les textes dans les scènes, sont devenues populaires dans le domaine de la détection de texte en scène. Toutefois, ces approches fondées sur le cadre de détection par Transformer peuvent présenter une efficacité d’entraînement et une performance sous-optimales en raison d’un modèle de requêtes de position trop grossier. Par ailleurs, la représentation des étiquettes par points utilisée dans les travaux antérieurs implique une ordonnancement de lecture humaine, ce qui, selon nos observations, nuit à la robustesse de la détection. Pour relever ces défis, cette étude propose un réseau compact, appelé DPText-DETR (Dynamic Point Text DEtection TRansformer), qui exploite directement des coordonnées de points explicites pour générer des requêtes de position et les met à jour dynamiquement de manière progressive. En outre, afin d’améliorer le biais inductif spatial de l’attention auto-associative non locale dans les Transformers, nous introduisons un module d’attention auto-associative factorisée améliorée, qui fournit aux requêtes de points au sein de chaque instance une guidance de forme circulaire. Par ailleurs, nous proposons une nouvelle forme d’étiquetage positionnel simple mais efficace, afin de corriger les effets indésirables de la forme précédente. Pour évaluer plus finement l’impact des différentes formes d’étiquetage sur la robustesse de la détection dans des scénarios réels, nous avons constitué un jeu de tests Inverse-Text comprenant 500 images étiquetées manuellement. Des expériences étendues démontrent l’efficacité élevée d’entraînement, la robustesse et les performances de pointe de notre méthode sur des benchmarks populaires. Le code source et le jeu de tests Inverse-Text sont disponibles à l’adresse suivante : https://github.com/ymy-k/DPText-DETR.

DPText-DETR : Vers une détection de texte scénique améliorée grâce à des points dynamiques dans les Transformers | Articles de recherche récents | HyperAI