HyperAIHyperAI
vor 3 Monaten

Neuüberlegung von Pre-training und Self-training

Barret Zoph, Golnaz Ghiasi, Tsung-Yi Lin, Yin Cui, Hanxiao Liu, Ekin D. Cubuk, Quoc V. Le
Neuüberlegung von Pre-training und Self-training
Abstract

Das Vortrainieren ist ein dominierender Ansatz in der Computer Vision. Beispielsweise wird häufig überwachtes Vortrainieren auf ImageNet verwendet, um die Backbone-Strukturen von Objektdetektions- und Segmentierungsmodellen zu initialisieren. He et al. zeigen jedoch ein überraschendes Ergebnis: Das Vortrainieren auf ImageNet hat nur begrenzten Einfluss auf die Objektdetektion auf COCO. In dieser Arbeit untersuchen wir stattdessen das Self-Training als alternative Methode zur Nutzung zusätzlicher Daten unter denselben Bedingungen und vergleichen es mit dem Vortrainieren auf ImageNet. Unsere Studie offenbart die Allgemeingültigkeit und Flexibilität des Self-Trainings anhand dreier zusätzlicher Erkenntnisse: 1) Stärkere Datenaugmentation und mehr gelabelte Daten verringern den Nutzen des Vortrainierens weiter; 2) Im Gegensatz zum Vortrainieren ist Self-Training bei stärkerer Datenaugmentation stets von Vorteil – sowohl im Low-Data- als auch im High-Data-Regime; 3) Falls Vortrainieren tatsächlich hilfreich ist, übertrifft Self-Training dieses Vorgehen. Zum Beispiel zeigt sich auf dem COCO-Objektdetektionsdatensatz, dass Vortrainieren nützlich ist, wenn nur ein Fünftel der gelabelten Daten verwendet werden, jedoch die Genauigkeit beeinträchtigt, wenn alle gelabelten Daten eingesetzt werden. Self-Training hingegen erzielt konstant positive Verbesserungen von +1,3 bis +3,4 AP über alle Datensatzgrößen hinweg. Mit anderen Worten: Self-Training funktioniert gerade dort besonders gut, wo Vortrainieren versagt (nämlich bei der Nutzung von ImageNet zur Verbesserung von COCO). Auf dem PASCAL-Segmentierungsdatensatz, der deutlich kleiner ist als COCO, hilft Vortrainieren zwar signifikant, dennoch übertrifft Self-Training das vortrainierte Modell. Auf der COCO-Objektdetektion erreichen wir eine AP von 54,3 – eine Verbesserung um +1,5 AP gegenüber dem leistungsstärksten SpineNet-Modell. Auf PASCAL-Segmentierung erzielen wir eine mIOU von 90,5 – eine Verbesserung um +1,5 Prozentpunkte gegenüber dem vorherigen Stand der Technik durch DeepLabv3+.