Kombinierte Skalierung für Zero-Shot-Transfer-Lernen

Wir präsentieren eine kombinierte Skalierungsmethode – BASIC genannt – die ohne das Lernen von etikettierten ImageNet-Beispielen eine Genauigkeit von 85,7 % im Top-1 auf dem ImageNet ILSVRC-2012 Validierungsdatensatz erreicht. Diese Genauigkeit übertrifft die besten vergleichbaren Modelle – CLIP und ALIGN – um 9,3 %. Unser BASIC-Modell zeigt auch erhebliche Verbesserungen in Robustheitsbenchmarks. Zum Beispiel erreicht unser Modell auf fünf Testsets mit natürlichen Verteilungsshifts wie ImageNet-{A,R,V2,Sketch} und ObjectNet eine durchschnittliche Top-1-Genauigkeit von 84,3 %, was nur einen geringen Rückgang gegenüber der ursprünglichen ImageNet-Genauigkeit darstellt. Um diese Ergebnisse zu erzielen, skalieren wir den kontrastiven Lernrahmen von CLIP und ALIGN in drei Dimensionen: Datenmenge, Modellgröße und Batchgröße. Unser Datensatz enthält 6,6 Milliarden rauschige Bild-Text-Paare, was viermal so viel wie ALIGN und sechzehnmal so viel wie CLIP ist. Unser größtes Modell verfügt über 3 Milliarden Gewichte, was 3,75-mal mehr Parameter und 8-mal mehr FLOPs als ALIGN und CLIP hat. Schließlich beträgt unsere Batchgröße 65536, was doppelt so viel wie bei CLIP und viermal so viel wie bei ALIGN ist.Bei der Implementierung der kombinierten Skalierungsvorschriften von BASIC sind wir zwei Hauptprobleme begegnet. Erstens stellt die begrenzte Speicherkapazität von Beschleunigern wie GPUs und TPUs die Haupt Herausforderung dar. Um die Speicherbegrenzung zu überwinden, schlagen wir zwei einfache Methoden vor, die Gradientencheckpointing und Modellparallelismus nutzen. Zweitens hat das Erhöhen der Datenmenge und der Modellgröße sich als Standardmethode zur Verbesserung der Leistung tiefster Lernmodelle wie BASIC erwiesen; jedoch wird der Einfluss einer großen kontrastiven Batchgröße auf solche kontrastiv trainierten Bild-Text-Modelle noch nicht vollständig verstanden. Um Licht ins Dunkel zu bringen bezüglich der Vorteile großer kontrastiver Batchgrößen, haben wir ein theoretisches Framework entwickelt, das zeigt, dass größere kontrastive Batchgrößen kleinere Generalisierungslücken für Bild-Text-Modelle wie BASIC führen.请注意,这里的翻译是针对德语读者的,而非法语读者。如果您需要法语翻译,请告知我。