BeyondWeb: Erkenntnisse aus der Skalierung synthetischer Daten für die Trillion-Skala-Vortrainierung

Neuere Fortschritte im Vortrainieren großer Sprachmodelle (Large Language Models, LLM) haben gezeigt, dass eine reine Skalierung der Datenmenge letztlich zu abnehmenden Erträgen führt und eine „Datenmauer“ erreicht wird. Als Antwort darauf ist die Nutzung synthetischer Daten für das Vortrainieren zu einer vielversprechenden Strategie geworden, um die Leistungsgrenzen weiter zu verschieben. Trotz dieser Entwicklung bleiben die Faktoren, die die Qualität synthetischer Daten beeinflussen, bisher schlecht verstanden. In dieser Arbeit stellen wir BeyondWeb vor, einen Rahmen zur Generierung synthetischer Daten, der hochwertige Daten für das Vortrainieren erzeugt. BeyondWeb erweitert die Fähigkeiten traditioneller web-skaliger Datensätze erheblich und übertrifft state-of-the-art-Datensätze für synthetisches Vortrainieren wie Cosmopedia sowie die hochwertige synthetische Untergruppe von Nemotron-CC (Nemotron-Synth) bei einer durchschnittlichen Bewertung über eine Reihe von 14 Benchmarks um bis zu 5,1 Prozentpunkte (pp) bzw. 2,6 pp. Zudem ermöglicht BeyondWeb eine bis zu 7,7-fach schnellere Trainingseffizienz im Vergleich zu offenen Web-Daten und eine 2,7-fach schnellere Ausführung im Vergleich zu Nemotron-Synth. Bemerkenswert ist, dass ein 3-Billionen-Parameter-Modell, das auf 180 Milliarden Tokens mit BeyondWeb trainiert wurde, ein 8-Billionen-Parameter-Modell, das unter gleichem Token-Budget auf Cosmopedia trainiert wurde, übertrifft. Außerdem präsentieren wir mehrere Erkenntnisse aus BeyondWeb zur Nutzung synthetischer Daten beim Vortrainieren: Was die Vorteile antreibt, welche Daten umformuliert werden sollten und wie, sowie der Einfluss der Modellgröße und des Modelltyps auf die Datenqualität. Insgesamt zeigt unsere Arbeit, dass es kein „einfaches Rezept“ für die Erzeugung hochwertiger synthetischer Vortrainingsdaten gibt. Die besten Ergebnisse erfordern eine gleichzeitige Optimierung vieler Faktoren – eine anspruchsvolle Aufgabe, die sorgfältige wissenschaftliche Forschung sowie praktische Expertise erfordert. Naive Ansätze können lediglich geringfügige Verbesserungen bringen, möglicherweise zu hohen Kosten, während gut durchdachte Methoden transformative Fortschritte ermöglichen, wie am Beispiel von BeyondWeb eindrucksvoll belegt wird.