vor 2 Monaten

Wo findet man Grokking im Vortrainingsprozess von LLMs? Überwachung der Memorierung zur Generalisierung ohne Test

Ziyue Li, Chenrui Fan, Tianyi Zhou

Abstract

Grokking, d.h. die Testleistung verbessert sich noch lange nachdem der Trainingsverlust konvergiert ist, wurde kürzlich bei der Ausbildung von neuronalen Netzen beobachtet, was den Mechanismus der Generalisierung und andere aufkommende Fähigkeiten wie das Schließen mysteriös macht. Während frühere Studien in der Regel kleine Modelle an einigen Spielzeug- oder hochspezifischen Aufgaben für Tausende von Epochen ausbildeten, führen wir die erste Untersuchung des Grokking durch während einer Einmal-Ausbildung eines 7-Milliarden-Parameter-Sprachmodells (LLM), nämlich OLMoE. Wir berechnen den Trainingsverlust und bewerten die Generalisierung anhand verschiedener Benchmark-Aufgaben, einschließlich mathematischem Schließen, Codegenerierung und Wissensabfrageaufgaben im Alltagssprachgebrauch und spezifischen Bereichen.Unsere Studie bestätigt zum ersten Mal, dass Grokking auch während der Vor-Ausbildung groß angelegter Grundlagenmodelle auftritt, obwohl verschiedene Daten möglicherweise nicht synchron in Grokking-Phasen eintreten. Wir klären ferner das Phänomen der "Generalisierungsaufkommen" auf, indem wir die internen Dynamiken des LLM untersuchen. Insbesondere stellen wir fest, dass die Pfade von Trainingsbeispielen (d.h., Expertenentscheidungen über mehrere Schichten) während des Grokking von zufällig und instanzspezifisch zu strukturierter und zwischen Beispielen austauschbarer Formen evolvieren. Auch verringert sich die Komplexität eines Pfades trotz konvergierenden Verlustes. Dies deutet auf eine Umwandlung von Memorialisierung zur Generalisierung hin und liefert eine mechanistische Erklärung für die verzögerte Generalisierung. Im Rahmen dieser Studie entwickeln wir zwei neue Metriken zur Quantifizierung des Pfadabstands und der Komplexität eines einzelnen Pfades. Wir zeigen ihre Fähigkeit, die Verbesserung der Generalisierung bei verschiedenen Downstream-Aufgaben vorherzusagen. Sie sind effizient, einfach zu berechnen und hängen ausschließlich vom Trainingsdatensatz ab. Daher haben sie praktischen Wert für die Vor-Ausbildung, da sie es uns ermöglichen, die Generalisierungsleistung ohne Feinabstimmung (Fine-Tuning) oder Test zu überwachen. Theoretisch zeigen wir, dass strukturiertere Pfade die Modellkomplexität reduzieren und den Generalisierungsschranken verbessern.