HyperAIHyperAI
vor 16 Tagen

Intrinsische Dimensionalität erklärt die Wirksamkeit der Feinabstimmung von Sprachmodellen

Armen Aghajanyan, Luke Zettlemoyer, Sonal Gupta
Intrinsische Dimensionalität erklärt die Wirksamkeit der Feinabstimmung von Sprachmodellen
Abstract

Obwohl vortrainierte Sprachmodelle durch Feinabstimmung Zustände der Kunst für eine sehr breite Palette von Sprachverständnistasks erreichen können, sind die Dynamiken dieses Prozesses, insbesondere im regime mit geringen Datenmengen, noch nicht gut verstanden. Warum können wir relativ einfache Gradientenabstiegsverfahren (z. B. ohne starke Regularisierung) nutzen, um Modelle mit Hunderten von Millionen Parametern auf Datensätzen mit lediglich Hunderten oder Tausenden beschrifteter Beispiele zu feinabstimmen? In diesem Paper argumentieren wir, dass die Analyse der Feinabstimmung durch die Perspektive der intrinsischen Dimension uns empirische und theoretische Einsichten liefert, um dieses bemerkenswerte Phänomen zu erklären. Wir zeigen empirisch, dass gängige vortrainierte Modelle eine sehr niedrige intrinsische Dimension aufweisen; anders ausgedrückt: Es existiert eine niedrigdimensionale Reparametrisierung, die für die Feinabstimmung ebenso wirksam ist wie der gesamte Parameterraum. Beispielsweise erreichen wir bei der Feinabstimmung eines RoBERTa-Modells auf dem MRPC-Datensatz 90 % der Leistung des vollständigen Modells, indem wir lediglich 200 trainierbare Parameter optimieren, die zufällig in den vollständigen Parameterraum projiziert wurden. Zudem zeigen wir empirisch, dass das Vortrainieren implizit die intrinsische Dimension minimiert – und vielleicht überraschenderweise weisen größere Modelle nach einer festen Anzahl von Vortrainings-Updates tendenziell eine niedrigere intrinsische Dimension auf, was zumindest teilweise ihre außerordentliche Effektivität erklärt. Schließlich verbinden wir die intrinsische Dimension mit niedrigdimensionalen Aufgabenrepräsentationen und kompressionsbasierten Generalisierungsgrenzen, um Generalisierungsgrenzen auf Basis der intrinsischen Dimension abzuleiten, die unabhängig von der Gesamtanzahl der Parameter sind.

Intrinsische Dimensionalität erklärt die Wirksamkeit der Feinabstimmung von Sprachmodellen | Neueste Forschungsarbeiten | HyperAI