Salience DETR : Amélioration du Detection Transformer par le raffinement de filtrage hiérarchique

Les méthodes similaires à DETR ont considérablement amélioré les performances de détection de manière end-to-end. Les cadres principaux en deux étapes effectuent une attention dense auto et sélectionnent une fraction de requêtes pour une attention croisée rare, ce qui s'est avéré efficace pour améliorer les performances mais introduit également un fardeau computationnel important et une forte dépendance à la sélection stable des requêtes. Cet article montre que des stratégies de sélection en deux étapes sous-optimales entraînent un biais d'échelle et une redondance dus au décalage entre les requêtes sélectionnées et les objets lors de l'initialisation en deux étapes. Pour résoudre ces problèmes, nous proposons un raffinement par filtrage hiérarchique de salience, qui effectue le codage transformer uniquement sur les requêtes discriminantes filtrées, offrant ainsi un meilleur compromis entre l'efficacité computationnelle et la précision. Le processus de filtrage surmonte le biais d'échelle grâce à une supervision de salience indépendante de l'échelle novatrice. Pour compenser le désalignement sémantique entre les requêtes, nous introduisons des modules de raffinement de requêtes élaborés pour une initialisation en deux étapes stable. Grâce à ces améliorations, le Salience DETR proposé réalise des gains significatifs de +4,0 % AP, +0,2 % AP et +4,4 % AP sur trois jeux de données spécifiques aux tâches difficiles, ainsi qu'un AP de 49,2 % sur COCO 2017 avec moins d'opérations flottantes (FLOPs). Le code est disponible à l'adresse suivante : https://github.com/xiuqhou/Salience-DETR.