vor 11 Tagen

Model Soups: Gewichtsmittelung mehrerer nachtrainierter Modelle verbessert die Genauigkeit ohne die Inferenzzeit zu erhöhen

Mitchell Wortsman, Gabriel Ilharco, Samir Yitzhak Gadre, Rebecca Roelofs, Raphael Gontijo-Lopes, Ari S. Morcos, Hongseok Namkoong, Ali Farhadi, Yair Carmon, Simon Kornblith, Ludwig Schmidt

Details der Forschungsarbeit anzeigen

Model Soups: Gewichtsmittelung mehrerer nachtrainierter Modelle verbessert die Genauigkeit ohne die Inferenzzeit zu erhöhen

Abstract

Die herkömmliche Vorgehensweise zur Maximierung der Modellgenauigkeit besteht darin, (1) mehrere Modelle mit unterschiedlichen Hyperparametern zu trainieren und (2) dasjenige Modell auszuwählen, das auf einem separaten Validierungssatz die beste Leistung erzielt, während die übrigen Modelle verworfen werden. In dieser Arbeit untersuchen wir den zweiten Schritt dieser Prozedur im Kontext der Feinabstimmung großer vortrainierter Modelle, bei denen feinabgestimmte Modelle oft in einem einzigen tiefen Fehlerbecken liegen. Wir zeigen, dass das Mitteln der Gewichte mehrerer Modelle, die mit unterschiedlichen Hyperparameter-Konfigurationen feinabgestimmt wurden, häufig die Genauigkeit und Robustheit verbessert. Im Gegensatz zu einem herkömmlichen Ensemble können wir bei diesem Ansatz viele Modelle mitteln, ohne zusätzliche Kosten für die Inferenz oder den Speicherbedarf zu verursachen – wir bezeichnen die Ergebnisse als „Model Soups“. Bei der Feinabstimmung großer vortrainierter Modelle wie CLIP, ALIGN und einem ViT-G, der auf JFT vortrainiert wurde, liefert unser Soup-Rezept signifikante Verbesserungen gegenüber dem besten Modell aus einem Hyperparameter-Sweep auf ImageNet. Das resultierende ViT-G-Modell erreicht eine Top-1-Accuracy von 90,94 % auf ImageNet und stellt damit eine neue State-of-the-Art-Leistung dar. Darüber hinaus zeigen wir, dass der Ansatz der Model Soups auf mehrere Aufgaben im Bereich der Bildklassifikation und natürlichen Sprachverarbeitung übertragbar ist, die Leistung bei Out-of-Distribution-Daten verbessert und die Zero-Shot-Leistung auf neuen Downstream-Aufgaben erhöht. Schließlich stellen wir eine analytische Beziehung zwischen der Leistungsgleichheit von Gewichtsmitteln und Logit-Ensembles einerseits und der Flachheit der Verlustfunktion sowie der Zuversicht der Vorhersagen andererseits her und validieren diese Beziehung empirisch. Der Quellcode ist unter https://github.com/mlfoundations/model-soups verfügbar.