LogME: Praktische Bewertung von vorab trainierten Modellen für Transfer-Learning

Dieses Papier untersucht die Auswahl von aufgabenangepassten vortrainierten Modellen, ein bisher wenig erforschtes Problem der Bewertung vortrainierter Modelle für die Zielaufgabe und der Auswahl der besten Modelle aus dem Modellzoo \emph{ohne Feinabstimmung (fine-tuning)}. Einige Vorarbeiten haben sich mit diesem Problem bei der Übertragung überwachter vortrainierter Modelle auf Klassifizierungsaufgaben beschäftigt, aber sie können neu auftretende unüberwachte vortrainierte Modelle oder Regressionsaufgaben nicht behandeln. Auf der Suche nach einer praktischen Bewertungsmethode schlagen wir vor, den maximalen Wert des Label-Beweises anhand von durch vortrainierte Modelle extrahierten Merkmalen zu schätzen. Im Gegensatz zur Maximum-Likelihood-Methode ist der maximale Beweis \emph{unempfindlich gegenüber Overfitting}, während seine teure Berechnung durch unseren sorgfältig entwickelten Algorithmus erheblich reduziert werden kann. Der Logarithmus des maximalen Beweises (LogME) kann verwendet werden, um vortrainierte Modelle für Transferlearning zu bewerten: ein vortrainiertes Modell mit einem hohen LogME-Wert ist wahrscheinlich in der Lage, gute Transferleistungen zu erbringen. LogME ist \emph{schnell, genau und allgemein} und prägt sich dadurch als die erste praktische Methode zur Bewertung vortrainierter Modelle aus. Verglichen mit dem aufwendigen Feinabstimmungsverfahren bringt LogME eine Beschleunigung von bis zu $3000\times$ in der realen Laufzeit und benötigt nur $1\%$ des Speicherbedarfs. Es übertrifft die früheren Methoden in deren Einstellungen deutlich und ist auch auf neue Einstellungen anwendbar. Es ist allgemein genug für verschiedene vortrainierte Modelle (überwacht vortrainiert und unüberwacht vortrainiert), Downstream-Aufgaben (Klassifizierung und Regression) sowie Modalitäten (Bildverarbeitung und Sprache). Der Quellcode ist im folgenden Repository verfügbar: \href{https://github.com/thuml/LogME}{https://github.com/thuml/LogME}.