Command Palette
Search for a command to run...
Neuüberlegung von Pre-training und Self-training
Neuüberlegung von Pre-training und Self-training
Barret Zoph Golnaz Ghiasi Tsung-Yi Lin Yin Cui Hanxiao Liu Ekin D. Cubuk Quoc V. Le
Zusammenfassung
Das Vortrainieren ist ein dominierender Ansatz in der Computer Vision. Beispielsweise wird häufig überwachtes Vortrainieren auf ImageNet verwendet, um die Backbone-Strukturen von Objektdetektions- und Segmentierungsmodellen zu initialisieren. He et al. zeigen jedoch ein überraschendes Ergebnis: Das Vortrainieren auf ImageNet hat nur begrenzten Einfluss auf die Objektdetektion auf COCO. In dieser Arbeit untersuchen wir stattdessen das Self-Training als alternative Methode zur Nutzung zusätzlicher Daten unter denselben Bedingungen und vergleichen es mit dem Vortrainieren auf ImageNet. Unsere Studie offenbart die Allgemeingültigkeit und Flexibilität des Self-Trainings anhand dreier zusätzlicher Erkenntnisse: 1) Stärkere Datenaugmentation und mehr gelabelte Daten verringern den Nutzen des Vortrainierens weiter; 2) Im Gegensatz zum Vortrainieren ist Self-Training bei stärkerer Datenaugmentation stets von Vorteil – sowohl im Low-Data- als auch im High-Data-Regime; 3) Falls Vortrainieren tatsächlich hilfreich ist, übertrifft Self-Training dieses Vorgehen. Zum Beispiel zeigt sich auf dem COCO-Objektdetektionsdatensatz, dass Vortrainieren nützlich ist, wenn nur ein Fünftel der gelabelten Daten verwendet werden, jedoch die Genauigkeit beeinträchtigt, wenn alle gelabelten Daten eingesetzt werden. Self-Training hingegen erzielt konstant positive Verbesserungen von +1,3 bis +3,4 AP über alle Datensatzgrößen hinweg. Mit anderen Worten: Self-Training funktioniert gerade dort besonders gut, wo Vortrainieren versagt (nämlich bei der Nutzung von ImageNet zur Verbesserung von COCO). Auf dem PASCAL-Segmentierungsdatensatz, der deutlich kleiner ist als COCO, hilft Vortrainieren zwar signifikant, dennoch übertrifft Self-Training das vortrainierte Modell. Auf der COCO-Objektdetektion erreichen wir eine AP von 54,3 – eine Verbesserung um +1,5 AP gegenüber dem leistungsstärksten SpineNet-Modell. Auf PASCAL-Segmentierung erzielen wir eine mIOU von 90,5 – eine Verbesserung um +1,5 Prozentpunkte gegenüber dem vorherigen Stand der Technik durch DeepLabv3+.