vor 3 Monaten

Robuste Feinabstimmung von Zero-Shot-Modellen

Mitchell Wortsman, Gabriel Ilharco, Jong Wook Kim, Mike Li, Simon Kornblith, Rebecca Roelofs, Raphael Gontijo-Lopes, Hannaneh Hajishirzi, Ali Farhadi, Hongseok Namkoong, Ludwig Schmidt

Details der Forschungsarbeit anzeigen

Robuste Feinabstimmung von Zero-Shot-Modellen

Abstract

Große vortrainierte Modelle wie CLIP oder ALIGN erzielen bei der Zero-Shot-Inferenz (d. h. ohne Feintuning an einem spezifischen Datensatz) eine konsistente Genauigkeit über eine Vielzahl von Datensverteilungen hinweg. Obwohl bestehende Feintuning-Methoden die Genauigkeit auf einer gegebenen Zielverteilung erheblich verbessern, verringern sie oft die Robustheit gegenüber Verteilungsverschiebungen. Wir lösen diesen Widerspruch, indem wir eine einfache und effektive Methode zur Verbesserung der Robustheit während des Feintunings vorstellen: das Ensembling der Gewichte des Zero-Shot- und des feingetunten Modells (WiSE-FT). Im Vergleich zum herkömmlichen Feintuning erzielt WiSE-FT erhebliche Genauigkeitsverbesserungen bei Verteilungsverschiebungen, während gleichzeitig eine hohe Genauigkeit auf der Zielverteilung beibehalten wird. Auf ImageNet und fünf abgeleiteten Verteilungsverschiebungen verbessert WiSE-FT die Genauigkeit bei Verteilungsverschiebungen um 4 bis 6 Prozentpunkte (pp) gegenüber vorhergehenden Ansätzen und erhöht gleichzeitig die ImageNet-Genauigkeit um 1,6 pp. WiSE-FT erreicht vergleichbare große Robustheitsgewinne (2 bis 23 pp) auf einer vielfältigen Gruppe von sechs weiteren Verteilungsverschiebungen und erzielt Genauigkeitsgewinne von 0,8 bis 3,3 pp gegenüber dem herkömmlichen Feintuning auf sieben häufig verwendeten Transfer-Learning-Datensätzen. Diese Verbesserungen erfordern weder zusätzlichen Rechenaufwand beim Feintuning noch bei der Inferenz.