Command Palette
Search for a command to run...
DETR conditionnel pour une convergence rapide de l'entraînement
DETR conditionnel pour une convergence rapide de l'entraînement
Depu Meng Xiaokang Chen Zejia Fan Gang Zeng Houqiang Li Yuhui Yuan Lei Sun Jingdong Wang
Résumé
L’approche récemment développée DETR applique l’architecture d’encodeur et de décodeur Transformer à la détection d’objets et atteint des performances prometteuses. Dans ce travail, nous abordons le problème crucial de la lente convergence pendant l’entraînement et proposons un mécanisme d’attention croisée conditionnelle pour accélérer l’entraînement de DETR. Notre approche s’inspire du fait que l’attention croisée dans DETR dépend fortement des embeddings de contenu pour localiser les quatre extrémités d’un objet et prédire sa boîte englobante, ce qui accroît la nécessité d’embeddings de contenu de haute qualité et par conséquent la difficulté d’entraînement. Notre méthode, nommée Conditional DETR, apprend une requête spatiale conditionnelle à partir des embeddings du décodeur afin d’alimenter l’attention croisée multi-têtes du décodeur. L’avantage réside dans le fait que, grâce à cette requête spatiale conditionnelle, chaque tête d’attention croisée peut se concentrer sur une bande contenant une région spécifique, par exemple une extrémité d’un objet ou une région à l’intérieur de la boîte englobante. Cela restreint la portée spatiale nécessaire pour localiser ces régions distinctes, ce qui réduit la dépendance vis-à-vis des embeddings de contenu et facilite ainsi l’entraînement. Les résultats expérimentaux montrent que Conditional DETR converge 6,7 fois plus vite pour les architectures de base R50 et R101, et 10 fois plus vite pour les architectures plus puissantes DC5-R50 et DC5-R101. Le code est disponible à l’adresse suivante : https://github.com/Atten4Vis/ConditionalDETR.