Die Effektivität der MAE-Vorvorbildung für die Vorbildung in Milliardenmaßstab

Dieses Papier untersucht das Standardparadigma der Vortraining-und-dann-Fine-Tuning-Methode, die in der Computer Vision für visuelle Erkennungsaufgaben verwendet wird. Üblicherweise werden state-of-the-art Grundmodelle unter Verwendung von großen (schwach) überwachten Datensätzen mit Milliarden von Bildern vortrainiert. Wir führen eine zusätzliche Vor-Vortraining-Phase ein, die einfach ist und die selbstüberwachte MAE-Technik (Masked Autoencoder) nutzt, um das Modell zu initialisieren. Obwohl bisher nur gezeigt wurde, dass MAE mit der Größe der Modelle skaliert, stellen wir fest, dass es auch mit der Größe des Trainingsdatensatzes skaliert. Somit skaliert unser MAE-basiertes Vor-Vortraining sowohl mit der Modellgröße als auch mit dem Datenumfang, was es für das Training von Grundmodellen geeignet macht. Das Vor-Vortraining verbessert konsistent sowohl die Konvergenz des Modells als auch die Downstream-Transferleistung bei einer Vielzahl von Modellgrößen (von Millionen bis zu Milliarden von Parametern) und Datensatzgrößen (von Millionen bis zu Milliarden von Bildern). Wir messen die Effektivität des Vor-Vortrainings anhand von 10 verschiedenen visuellen Erkennungsaufgaben, einschließlich Bildklassifizierung, Videounternehmungserkennung, Objekterkennung, Low-Shot-Klassifizierung und Zero-Shot-Erkennung. Unser größtes Modell erzielt neue Stand-of-the-Art-Ergebnisse auf iNaturalist-18 (91,7 %), ImageNet-ReaL (91,1 %), 1-Schuss ImageNet-1k (63,6 %) und bei Zero-Shot-Transfer auf Food-101 (96,2 %). Unsere Studie zeigt auf, dass die Modellinitialisierung eine bedeutende Rolle spielt, sogar bei webmaßstäblichem Vortraining mit Milliarden von Bildern. Unsere Modelle sind öffentlich verfügbar.请注意,"web-scale pretraining" 翻译为 "webmaßstäbliches Vortraining",以保持科技领域的专业性和准确性。此外,“state-of-the-art”在德语中通常写作“Stand-of-the-Art”,尽管有时也会看到“state-of-the-art”直接使用的现象。