HyperAIHyperAI

Command Palette

Search for a command to run...

DPText-DETR : Vers une détection de texte scénique améliorée grâce à des points dynamiques dans les Transformers

Maoyuan Ye Jing Zhang Shanshan Zhao Juhua Liu Bo Du Dacheng Tao

Résumé

Récemment, les méthodes basées sur les Transformers, qui prédise les coordonnées des points d’un polygone ou les points de contrôle des courbes de Bézier pour localiser les textes dans les scènes, sont devenues populaires dans le domaine de la détection de texte en scène. Toutefois, ces approches fondées sur le cadre de détection par Transformer peuvent présenter une efficacité d’entraînement et une performance sous-optimales en raison d’un modèle de requêtes de position trop grossier. Par ailleurs, la représentation des étiquettes par points utilisée dans les travaux antérieurs implique une ordonnancement de lecture humaine, ce qui, selon nos observations, nuit à la robustesse de la détection. Pour relever ces défis, cette étude propose un réseau compact, appelé DPText-DETR (Dynamic Point Text DEtection TRansformer), qui exploite directement des coordonnées de points explicites pour générer des requêtes de position et les met à jour dynamiquement de manière progressive. En outre, afin d’améliorer le biais inductif spatial de l’attention auto-associative non locale dans les Transformers, nous introduisons un module d’attention auto-associative factorisée améliorée, qui fournit aux requêtes de points au sein de chaque instance une guidance de forme circulaire. Par ailleurs, nous proposons une nouvelle forme d’étiquetage positionnel simple mais efficace, afin de corriger les effets indésirables de la forme précédente. Pour évaluer plus finement l’impact des différentes formes d’étiquetage sur la robustesse de la détection dans des scénarios réels, nous avons constitué un jeu de tests Inverse-Text comprenant 500 images étiquetées manuellement. Des expériences étendues démontrent l’efficacité élevée d’entraînement, la robustesse et les performances de pointe de notre méthode sur des benchmarks populaires. Le code source et le jeu de tests Inverse-Text sont disponibles à l’adresse suivante : https://github.com/ymy-k/DPText-DETR.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp