Consistent-Teacher: Hin zum Reduzieren inkonsistenter Pseudo-Ziele bei semi-supervised Object Detection

In dieser Studie untersuchen wir die Inkonsistenz von Pseudotargets im semi-supervised Object Detection (SSOD) eingehend. Unser zentrales Ergebnis ist, dass oszillierende Pseudotargets die Ausbildung eines präzisen Detektors beeinträchtigen und Rauschen in das Training des Student-Netzwerks einbringen, was zu schwerwiegenden Overfitting-Problemen führt. Daher schlagen wir eine systematische Lösung vor, die als ConsistentTeacher bezeichnet wird, um die Inkonsistenz zu verringern. Zunächst ersetzt eine adaptive Anchor-Zuweisung (ASA) die statische IoU-basierte Strategie, wodurch das Student-Netzwerk robuster gegenüber verrauschten Pseudobounding Boxes wird. Anschließend kalibrieren wir die Subtask-Vorhersagen durch die Einführung eines 3D-Feature-Alignment-Moduls (FAM-3D), das es jedem Klassifikationsfeature ermöglicht, adaptiv den optimalen Featurevektor für die Regressionsaufgabe an beliebigen Skalen und Positionen abzurufen. Schließlich wird der Score-Schwellenwert für Pseudobounding Boxes dynamisch durch ein Gaußsches Mischmodell (GMM) angepasst, was die Anzahl der Ground Truths in einem frühen Trainingsstadium stabilisiert und die unzuverlässigen Supervisionsignale während des Trainings korrigiert. ConsistentTeacher erzielt starke Ergebnisse bei einer Vielzahl von SSOD-Evaluationen. Mit einem ResNet-50-Backbone erreicht es eine mAP von 40,0, wenn nur 10 % der annotierten MS-COCO-Daten verwendet werden – dies übertrifft die vorherigen Baselines, die Pseudolabels nutzen, um etwa 3 mAP. Bei Training auf voll annotierten MS-COCO-Daten unter Verwendung zusätzlicher ungelabelter Daten steigt die Leistung zudem auf 47,7 mAP. Der Quellcode ist unter \url{https://github.com/Adamdad/ConsistentTeacher} verfügbar.