Semi-DETR: Semi-supervisiertes Objektdetektionsverfahren mit Detektions-Transformern

Wir analysieren den DETR-basierten Ansatz im Bereich der halbüberwachten Objektdetektion (SSOD) und stellen fest, dass (1) die one-to-one-Zuordnungsstrategie zu fehlerhaften Zuordnungen führt, wenn die pseudo-annotierten Bounding Boxes ungenau sind, was die Trainingseffizienz beeinträchtigt; (2) DETR-basierte Detektoren eine deterministische Korrespondenz zwischen den Eingabewünschen (queries) und deren Vorhersageoutput fehlen, was die Anwendbarkeit der konsistenzbasierten Regularisierung einschränkt, wie sie in aktuellen SSOD-Methoden weit verbreitet ist. Wir präsentieren Semi-DETR, den ersten transformer-basierten, end-to-end halbüberwachten Objektdetektor, um diese Probleme anzugehen. Konkret schlagen wir eine stufenweise hybride Zuordnungsstrategie vor, die die one-to-many- und die one-to-one-Zuordnungsstrategien kombiniert, um die Trainingseffizienz der ersten Stufe zu verbessern und somit hochwertige Pseudolabels für die zweite Trainingsstufe bereitzustellen. Darüber hinaus führen wir eine Crossview Query Consistency-Methode ein, um die semantische Merkmalinvarianz der Objektwünsche aus verschiedenen Ansichten zu lernen, ohne eine deterministische Zuordnung der Wünsche benötigen zu müssen. Zudem schlagen wir ein kostenbasiertes Pseudolabel-Mining-Modul vor, das dynamisch zusätzliche Pseudobounding Boxes basierend auf der Zuordnungskosten der pseudo-annotierten Bounding Boxes für die Konsistenztrainingsphase identifiziert. Umfangreiche Experimente auf allen SSOD-Einstellungen der Benchmark-Datensätze COCO und Pascal VOC zeigen, dass unsere Semi-DETR-Methode alle state-of-the-art-Methoden klar schlägt. Der PaddlePaddle-Code ist unter https://github.com/PaddlePaddle/PaddleDetection/tree/develop/configs/semi_det/semi_detr verfügbar.