NMS contre-attaque

Le détecteur Transformer (DETR) transforme directement les requêtes en objets uniques en utilisant un appariement bipartite un-à-un pendant l'entraînement, permettant ainsi une détection d'objets end-to-end. Récemment, ces modèles ont dépassé les détecteurs traditionnels sur COCO avec une élégance indéniable. Toutefois, ils diffèrent des détecteurs classiques sur plusieurs aspects, notamment l'architecture du modèle et les stratégies d'entraînement, ce qui rend encore incomplètement comprise l'efficacité de l'appariement un-à-un. Dans ce travail, nous menons une comparaison rigoureuse entre l'appariement un-à-un de type Hungarian utilisé dans DETR et les affectations étiquettes un-à-plusieurs adoptées par les détecteurs traditionnels avec suppression non maximale (NMS). De manière surprenante, nous observons que les affectations un-à-plusieurs combinées à NMS surpassent systématiquement l'appariement standard un-à-un dans les mêmes conditions, avec une amélioration significative pouvant atteindre 2,5 mAP. Notre détecteur, entraîné avec une affectation d'étiquettes basée sur l'IoU classique et utilisant Deformable-DETR, atteint 50,2 mAP sur COCO en seulement 12 époques (planification 1x) avec un squelette ResNet50, surpassant tous les détecteurs traditionnels ou basés sur Transformer existants dans ce cadre. Sur plusieurs jeux de données, plans d'entraînement et architectures, nous montrons de manière cohérente que l'appariement bipartite n'est pas nécessaire pour obtenir des détecteurs Transformer performants. En outre, nous attribuons le succès des détecteurs Transformer à leur architecture expressive fondée sur le Transformer. Le code est disponible à l'adresse suivante : https://github.com/jozhang97/DETA.