NMS kehrt zurück

Detection Transformer (DETR) wandelt Abfragen direkt in eindeutige Objekte um, indem während des Trainings eine ein-zu-eins-Bipartite-Zuordnung verwendet wird, und ermöglicht eine end-to-end-Objekterkennung. In letzter Zeit haben diese Modelle auf COCO traditionelle Detektoren mit unbestreitbarer Eleganz übertroffen. Sie unterscheiden sich jedoch von traditionellen Detektoren in mehreren Aspekten, darunter Architektur und Trainingsstrategien, sodass die Effektivität der ein-zu-eins-Zuordnung noch nicht vollständig verstanden ist. In dieser Arbeit führen wir einen strengen Vergleich zwischen der ein-zu-eins-Hungarischen Zuordnung in DETRs und der ein-zu-vielen Label-Zuweisung in traditionellen Detektoren mit nicht-maximaler Unterdrückung (NMS) durch. Überraschenderweise stellen wir fest, dass ein-zu-viele Zuweisungen in Kombination mit NMS unter gleichen Bedingungen die Standard-ein-zu-eins-Zuordnung konstant übertrifft, wobei ein signifikanter Gewinn von bis zu 2,5 mAP erzielt wird. Unser Detektor, der Deformable-DETR mit traditioneller IoU-basierter Label-Zuweisung trainiert, erreicht innerhalb von 12 Epochen (1x-Schema) mit einem ResNet50-Backbone eine COCO-mAP von 50,2, wodurch er alle bestehenden traditionellen oder Transformer-basierten Detektoren in dieser Konfiguration schlägt. Auf mehreren Datensätzen, Trainings-Schemata und Architekturen zeigen wir konsistent, dass eine bipartite Zuordnung für leistungsstarke Detektions-Transformer nicht notwendig ist. Darüber hinaus weisen wir den Erfolg von Detektions-Transformern auf ihre ausdrucksstarke Transformer-Architektur zurück. Der Quellcode ist unter https://github.com/jozhang97/DETA verfügbar.