Adaptive Self-Training für die Objekterkennung

Deep Learning ist zu einer effektiven Lösung für die Aufgabe der Objektdetektion in Bildern geworden, erfordert jedoch im Gegenzug große, gelabelte Datensätze. Um diese Kosten zu verringern, wurden semi-supervised Methoden zur Objektdetektion vorgeschlagen, die reichlich unlabeled Daten nutzen. Diese haben bereits beeindruckende Ergebnisse erzielt. Allerdings erfordern die meisten dieser Ansätze die Verknüpfung eines Pseudolabels mit einem Ground-Truth-Objekt durch Schwellenwertbestimmung. In früheren Arbeiten wird dieser Schwellenwert üblicherweise empirisch bestimmt, was zeitaufwendig ist und nur für eine einzige Datensatzverteilung durchgeführt wird. Ändert sich die Domäne und damit die Datensatzverteilung, ist eine neue, kostspielige Parameteroptimierung erforderlich. In dieser Arbeit stellen wir unsere Methode Adaptive Self-Training for Object Detection (ASTOD) vor, eine einfache, aber wirksame Lehrer-Schüler-Methode. ASTOD bestimmt ohne zusätzlichen Aufwand einen Schwellenwert direkt basierend auf dem Ground-Truth-Wert der Score-Histogramm-Verteilung. Um die Qualität der Lehrervorhersagen zu verbessern, schlagen wir zudem ein neuartiges Pseudolabeling-Verfahren vor. Dabei nutzen wir unterschiedliche Ansichten unlabeled Bilder im Schritt des Pseudolabelings, um die Anzahl verpasster Vorhersagen zu reduzieren und somit bessere Kandidatenlabels zu erhalten. Unser Lehrer und Schüler werden getrennt trainiert, und unsere Methode kann iterativ eingesetzt werden, indem der Lehrer durch den Schüler ersetzt wird. Auf dem MS-COCO-Datensatz erzielt unsere Methode konsistent bessere Ergebnisse als aktuelle state-of-the-art-Methoden, die keinen Schwellenwertparameter erfordern, und zeigt wettbewerbsfähige Ergebnisse gegenüber Methoden, die eine Parameter-Such-Suche erfordern. Zusätzliche Experimente im Vergleich zu einer überwachten Baseline auf dem DIOR-Datensatz, der Satellitenbilder enthält, führen zu ähnlichen Schlussfolgerungen und belegen, dass es möglich ist, den Score-Schwellenwert im Selbsttraining automatisch und unabhängig von der Datensatzverteilung anzupassen. Der Quellcode ist unter https://github.com/rvandeghen/ASTOD verfügbar.