Relation DETR : Exploration de la relation de position explicite pour la détection d'objets

Ce document présente un schéma général pour améliorer la convergence et les performances de DETR (DEtection TRansformer). Nous examinons le problème de convergence lente des transformateurs sous un angle nouveau, suggérant qu'il découle de l'auto-attention qui n'introduit aucun biais structurel sur les entrées. Pour résoudre ce problème, nous explorons l'incorporation d'un a priori de relation de position en tant que biais d'attention afin d'améliorer la détection d'objets, après avoir vérifié sa signification statistique à l'aide d'une métrique quantitative de corrélation macroscopique (MC) proposée. Notre approche, appelée Relation-DETR, introduit un encodeur pour construire des plongements de relation de position permettant une amélioration progressive de l'attention. Cela étend davantage le pipeline traditionnel en flux continu de DETR vers un pipeline de relation contrastive pour résoudre les conflits entre les prédictions non dupliquées et la supervision positive. De nombreuses expériences menées sur des jeux de données génériques et spécifiques à une tâche démontrent l'efficacité de notre approche. Avec les mêmes configurations, Relation-DETR réalise une amélioration significative (+2,0% AP par rapport à DINO), des performances au niveau de l'état de l'art (51,7% AP pour la configuration 1x et 52,1% AP pour la configuration 2x), ainsi qu'une vitesse de convergence remarquablement plus rapide (plus de 40% AP avec seulement 2 époques d'entraînement) comparativement aux détecteurs DETR existants sur COCO val2017. De plus, l'encodeur relationnel proposé peut être utilisé comme composant universel plug-and-play, apportant des améliorations claires à toute méthode similaire à DETR.De plus, nous introduisons un jeu de données de détection sans distinction des classes, SA-Det-100k. Les résultats expérimentaux sur ce jeu de données montrent que la relation explicite de position proposée réalise une amélioration claire de 1,3% AP, soulignant son potentiel dans la détection universelle d'objets. Le code et le jeu de données sont disponibles à l'adresse suivante : https://github.com/xiuqhou/Relation-DETR.