Dense Distinct Query für die end-to-end Objektdetektion

Die ein-zu-eins-Zuordnung von Etiketten in der Objekterkennung hat erfolgreich die Notwendigkeit einer Nachverarbeitung mittels Non-Maximum-Suppression (NMS) beseitigt und die Pipeline end-to-end ermöglicht. Allerdings wirft sie ein neues Dilemma auf: Die weit verbreiteten sparsen Queries können keine hohe Recall-Rate garantieren, während dichte Queries zwangsläufig mehr ähnliche Queries erzeugen und zu Optimierungsproblemen führen. Da sowohl sparsche als auch dichte Queries ihre Probleme haben, welche Art von Queries ist dann in der end-to-end-Objekterkennung eigentlich erwünscht? Diese Arbeit zeigt, dass die Lösung in Dense Distinct Queries (DDQ) liegt. Konkret legen wir zunächst dichte Queries wie bei traditionellen Detektoren an und wählen anschließend eindeutige Queries für die ein-zu-eins-Zuordnung aus. DDQ vereint die Vorteile traditioneller und neuer end-to-end-Detektoren und verbessert signifikant die Leistung verschiedener Detektoren, darunter FCN, R-CNN und DETRs. Besonders beeindruckend ist, dass DDQ-DETR innerhalb von 12 Epochen mit einem ResNet-50-Backbone eine AP von 52,1 auf dem MS-COCO-Datensatz erreicht und damit alle bestehenden Detektoren unter denselben Bedingungen übertrifft. DDQ profitiert zudem von den Vorteilen end-to-end-Detektoren in dicht besetzten Szenen und erzielt eine AP von 93,8 auf dem CrowdHuman-Datensatz. Wir hoffen, dass DDQ Forscher dazu anregt, die Ergänzungsbeziehung zwischen traditionellen Methoden und end-to-end-Detektoren stärker zu berücksichtigen. Der Quellcode ist unter \url{https://github.com/jshilong/DDQ} verfügbar.