Neue Studie liefert Leitfaden für präzise Vorhersage von LLM-Leistung durch Skalierungsgesetze
Bei der Entwicklung großer Sprachmodelle (LLMs) ist es entscheidend, Leistung unter begrenztem Rechen- und Budgetrahmen zu maximieren. Da das Training solcher Modelle Kosten von Millionen Dollar verursachen kann, müssen Entwickler strategisch entscheiden, welche Architektur, Optimierer, Trainingsdaten und Parameter verwendet werden. Um die Leistung großer Modelle vorherzusagen, nutzen Forscher sogenannte Skalierungsgesetze: Sie basieren auf kleineren, kostengünstigeren Modellen derselben Modellfamilie, um die Leistung eines viel größeren Ziels zu schätzen. Bisher gab es jedoch Tausende mögliche Formulierungen solcher Gesetze, was die Auswahl schwierig machte. Forscher von MIT und dem MIT-IBM Watson AI Lab haben nun eine umfassende Studie vorgelegt, die über 40 Modellfamilien – darunter LLaMA, Pythia, OPT, Bloom und GPT – mit insgesamt 485 vortrainierten Modellen und 1,9 Millionen Leistungsmetriken analysiert hat. Aus dieser Datenbasis haben sie über 1.000 Skalierungsgesetze erstellt und deren Genauigkeit verglichen. Die Kernidee: Skalierungsgesetze modellieren die Beziehung zwischen der Anzahl der Parameter, der Menge an Trainingsdaten (Tokens) und der Verlustfunktion (Loss), um die Leistung eines großen Modells vorherzusagen. Die Forscher fanden heraus, dass die Genauigkeit der Vorhersagen durch die Einbeziehung von Zwischencheckpoint-Verlusten deutlich steigt – besonders ab 10 Milliarden Tokens. Frühe Trainingsphasen sind hingegen zu verrauscht und sollten ausgeschlossen werden. Zudem zeigte sich, dass fünf Modelle in unterschiedlichen Größen ausreichen, um eine robuste Skalierungsgesetz-Schätzung zu erzielen. Wenn Ressourcen knapp sind, kann man auch ein kleineres Modell trainieren und Skalierungsparameter aus einer ähnlichen Modellfamilie übernehmen – allerdings nur bei bestimmten Architekturen wie Decoder-only-Modellen. Ein überraschender Befund war, dass auch teilweise trainierte Modelle (z. B. 30 % des Datensatzes) hochpräzise Vorhersagen liefern können, da sie als „Nebenprodukt“ eines vollständigen Trainings existieren. Zudem zeigte sich, dass Skalierungsgesetze auch rückwärts funktionieren: Sie können große Modelle zur Vorhersage kleinerer Modelle nutzen – was die gängige Annahme widerlegt, dass kleine und große Modelle grundlegend unterschiedlich verhalten. Die Forscher konnten außerdem zeigen, dass nur drei von fünf Hyperparametern fast alle Variationen in der Modellleistung erklären, was die Komplexität der Modellierung reduziert. Die Ergebnisse liefern eine praxisnahe Anleitung für Entwickler, wie sie Skalierungsgesetze effizient und zuverlässig anwenden können. Die maximale Vorhersagegenauigkeit liegt bei etwa 4 % absoluter relativer Abweichung (ARE), was durch zufällige Seed-Varianz begrenzt ist; bis zu 20 % ARE sind dennoch für strategische Entscheidungen nützlich. Die Forscher planen, ihre Methodik auf die Inference-Zeit auszudehnen: Wie lange muss ein Modell „denken“, um eine optimale Antwort zu liefern? Diese Inference-Skalierungsgesetze könnten künftig entscheidend werden, da Modelle kontinuierlich auf neue Benutzeranfragen reagieren müssen – und nicht nur einmal trainiert werden. Industrieexperten loben die Arbeit als Schritt zur Standardisierung und Demokratisierung der LLM-Entwicklung. Die neue Methode ermöglicht auch kleineren Forschungsteams, fundierte Entscheidungen zu treffen, ohne riesige Rechenressourcen zu benötigen. Die Ergebnisse könnten die Grundlage für zukünftige automatisierte Modellentwicklung und Ressourcenoptimierung bilden.
