Décodeur à regards récurrents basé sur l'attention pour la détection avec Transformer

Bien que la détection basée sur les Transformers (DETR) gagne en popularité, son modèle d’attention globale nécessite une période d’entraînement extrêmement longue pour être optimisé et atteindre des performances prometteuses en détection. Contrairement aux travaux existants, qui se concentrent principalement sur le développement de architectures avancées de caractéristiques ou d’embeddings pour résoudre ce problème d’entraînement, nous soulignons que le raffinement de la détection basé sur les régions d’intérêt (Region-of-Interest, RoI) peut facilement atténuer la difficulté d’entraînement des méthodes DETR. À partir de cette observation, nous proposons dans cet article un nouveau décodeur récurrent basé sur des regards successifs, appelé REGO (REcurrent Glimpse-based decOder). En particulier, REGO utilise une structure de traitement récurrent multi-étapes afin d’aider l’attention de DETR à se concentrer progressivement de manière plus précise sur les objets foreground. À chaque étape de traitement, des caractéristiques visuelles sont extraites sous forme de « regards » (glimpse features) à partir des RoIs dont les bornes sont élargies à partir des résultats de détection de l’étape précédente. Ensuite, un décodeur basé sur ces regards est introduit pour fournir des résultats de détection améliorés, combinant les caractéristiques de regard et les sorties du modèle d’attention de l’étape précédente. En pratique, REGO peut être facilement intégré dans des variantes représentatives de DETR tout en préservant leurs pipelines d’entraînement et de déduction entièrement end-to-end. En particulier, REGO permet à Deformable DETR d’atteindre un score AP de 44,8 sur le jeu de données MSCOCO en seulement 36 époques d’entraînement, contre respectivement 500 et 50 époques nécessaires pour le premier DETR et Deformable DETR afin d’obtenir des performances comparables. Des expériences supplémentaires montrent que REGO améliore de manière cohérente les performances de différents détecteurs DETR, avec une augmentation relative maximale de 7 % à un même nombre d’époques d’entraînement (50 époques). Le code source est disponible à l’adresse suivante : https://github.com/zhechen/Deformable-DETR-REGO.