HyperAIHyperAI

Command Palette

Search for a command to run...

Wo findet man Grokking im Vortrainingsprozess von LLMs? Überwachung der Memorierung zur Generalisierung ohne Test

Ziyue Li Chenrui Fan Tianyi Zhou

Zusammenfassung

Grokking, d.h. die Testleistung verbessert sich noch lange nachdem der Trainingsverlust konvergiert ist, wurde kürzlich bei der Ausbildung von neuronalen Netzen beobachtet, was den Mechanismus der Generalisierung und andere aufkommende Fähigkeiten wie das Schließen mysteriös macht. Während frühere Studien in der Regel kleine Modelle an einigen Spielzeug- oder hochspezifischen Aufgaben für Tausende von Epochen ausbildeten, führen wir die erste Untersuchung des Grokking durch während einer Einmal-Ausbildung eines 7-Milliarden-Parameter-Sprachmodells (LLM), nämlich OLMoE. Wir berechnen den Trainingsverlust und bewerten die Generalisierung anhand verschiedener Benchmark-Aufgaben, einschließlich mathematischem Schließen, Codegenerierung und Wissensabfrageaufgaben im Alltagssprachgebrauch und spezifischen Bereichen.Unsere Studie bestätigt zum ersten Mal, dass Grokking auch während der Vor-Ausbildung groß angelegter Grundlagenmodelle auftritt, obwohl verschiedene Daten möglicherweise nicht synchron in Grokking-Phasen eintreten. Wir klären ferner das Phänomen der "Generalisierungsaufkommen" auf, indem wir die internen Dynamiken des LLM untersuchen. Insbesondere stellen wir fest, dass die Pfade von Trainingsbeispielen (d.h., Expertenentscheidungen über mehrere Schichten) während des Grokking von zufällig und instanzspezifisch zu strukturierter und zwischen Beispielen austauschbarer Formen evolvieren. Auch verringert sich die Komplexität eines Pfades trotz konvergierenden Verlustes. Dies deutet auf eine Umwandlung von Memorialisierung zur Generalisierung hin und liefert eine mechanistische Erklärung für die verzögerte Generalisierung. Im Rahmen dieser Studie entwickeln wir zwei neue Metriken zur Quantifizierung des Pfadabstands und der Komplexität eines einzelnen Pfades. Wir zeigen ihre Fähigkeit, die Verbesserung der Generalisierung bei verschiedenen Downstream-Aufgaben vorherzusagen. Sie sind effizient, einfach zu berechnen und hängen ausschließlich vom Trainingsdatensatz ab. Daher haben sie praktischen Wert für die Vor-Ausbildung, da sie es uns ermöglichen, die Generalisierungsleistung ohne Feinabstimmung (Fine-Tuning) oder Test zu überwachen. Theoretisch zeigen wir, dass strukturiertere Pfade die Modellkomplexität reduzieren und den Generalisierungsschranken verbessern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp