DETRs mit kollaborativen hybriden Zuweisungen Schulung

In dieser Arbeit stellen wir die Beobachtung vor, dass zu wenige Abfragen als positive Beispiele in DETR bei einer ein-zu-einen Mengen-Zuordnung (one-to-one set matching) zu einer dünnen Überwachung der Ausgabe des Encoders führen, was die diskriminative Merkmalslernen des Encoders erheblich beeinträchtigt. Umgekehrt führt dies bei der Aufmerksamkeitslernen im Decoder zu einem ähnlichen Problem. Um dieses Problem zu mildern, präsentieren wir ein neues kollaboratives hybrides Zuordnungs-Trainingsverfahren, nämlich $\mathcal{C}$o-DETR, das effizientere und effektivere DETR-basierte Detektoren durch vielfältige Labelzuordnungen lernt. Dieses neue Trainingsverfahren kann die Lernfähigkeit des Encoders in end-to-end-Detektoren leicht verbessern, indem es mehrere parallele Hilfsköpfe trainiert, die durch eine ein-zu-mehreren Labelzuordnung (one-to-many label assignments) wie ATSS und Faster RCNN überwacht werden. Zudem generieren wir zusätzliche benutzerdefinierte positive Abfragen, indem wir die positiven Koordinaten aus diesen Hilfsköpfen extrahieren, um die Trainingseffizienz der positiven Beispiele im Decoder zu verbessern. Während der Inferenz werden diese Hilfsköpfe verworfen, sodass unsere Methode keine zusätzlichen Parameter oder Rechenaufwand für den ursprünglichen Detektor einführt und gleichzeitig kein manuell gestaltetes Non-Maximum-Suppression (NMS)-Verfahren erforderlich ist. Wir führen umfangreiche Experimente durch, um die Effektivität des vorgeschlagenen Ansatzes auf verschiedenen Varianten von DETR zu bewerten, darunter DAB-DETR, Deformable-DETR und DINO-Deformable-DETR. Der state-of-the-art DINO-Deformable-DETR mit Swin-L kann von 58,5% auf 59,5% AP auf COCO val verbessert werden. Überraschenderweise erreichen wir mit dem ViT-L-Basisnetz 66,0% AP auf COCO test-dev und 67,9% AP auf LVIS val, wobei wir deutliche Margen gegenüber früheren Methoden erzielen und dabei viel kleinere Modellgrößen verwenden. Die Codes sind unter \url{https://github.com/Sense-X/Co-DETR} verfügbar.