End-to-End Semi-Supervised Object Detection mit Soft Teacher

Diese Arbeit präsentiert einen end-to-end-semi-supervised Ansatz für die Objektdetektion, im Gegensatz zu früheren komplexeren mehrstufigen Methoden. Durch das end-to-end-Training wird die Qualität der Pseudolabels im Verlauf des Lerncurriculums schrittweise verbessert, wodurch die zunehmend genauer werdenden Pseudolabels wiederum die Objektdetektionstraining verbessern. Wir schlagen innerhalb dieses Rahmens zwei einfache, jedoch wirksame Techniken vor: eine Soft-Teacher-Mechanismus, bei dem der Klassifikationsverlust jedes unbeschrifteten Bounding Boxes durch den Klassifikationsscore gewichtet wird, der vom Teacher-Netzwerk generiert wird; sowie eine Box-Jittering-Methode zur Auswahl zuverlässiger Pseudoboxen für das Lernen der Box-Regression. Auf der COCO-Benchmark erreicht der vorgeschlagene Ansatz bei verschiedenen Beschriftungsquoten – nämlich 1 %, 5 % und 10 % – deutlich bessere Ergebnisse als frühere Methoden. Zudem zeigt sich, dass unser Ansatz auch bei relativ großem Volumen an beschrifteten Daten gut abschneidet. Beispielsweise kann ein Baseline-Detektor mit 40,9 mAP, der auf dem vollständigen COCO-Trainingsset trainiert wurde, durch Nutzung der 123.000 unbeschrifteten Bilder von COCO um +3,6 mAP verbessert werden und somit eine Leistung von 44,5 mAP erreicht. Auf dem aktuellen State-of-the-Art-Swin-Transformer-basierten Objektdetektor (58,9 mAP auf test-dev) kann die Detektionsgenauigkeit dennoch um +1,5 mAP verbessert werden, was zu einem Ergebnis von 60,4 mAP führt, und die Genauigkeit der Instanzsegmentierung um +1,2 mAP steigt, erreicht 52,4 mAP. Durch die zusätzliche Integration eines auf Object365 vortrainierten Modells erreicht die Detektionsgenauigkeit schließlich 61,3 mAP und die Genauigkeit der Instanzsegmentierung 53,0 mAP, wodurch ein neuer State-of-the-Art erreicht wird.