Datology AI stellt BeyondWeb vor: Synthetische Daten für effizientere KI-Trainingsmodelle
Datology AI hat mit BeyondWeb einen neuen Ansatz zur Erzeugung synthetischer Trainingsdaten vorgestellt, um die wachsenden Engpässe bei hochwertigen Web-Daten für KI-Modelle zu überwinden. Angesichts von Trainingsbudgets in der Größenordnung von Trillionen Tokens wird echte Web-Textdaten zunehmend knapp – ein Phänomen, das Datology als „Data Wall“ bezeichnet. BeyondWeb adressiert dieses Problem, indem es bestehende Web-Dokumente umstrukturiert: Inhalte werden informativer, didaktischer und für das Training von Sprachmodellen besser geeignet. Die Methode zeigt signifikante Leistungsverbesserungen: Auf 8B-Modellen erreicht sie eine Genauigkeitssteigerung um 5,1 Prozent gegenüber Hugging Face’s Cosmopedia und 2,6 Prozent gegenüber Nvidia’s Nemotron-CC. In 0- und 5-Schuss-Benchmark-Tests auf 14 Standardaufgaben unterstreicht das Ergebnis die Effektivität. Besonders bemerkenswert ist die Effizienz: BeyondWeb trainiert 7,7-mal schneller als offene Web-Daten und 2,7-mal schneller als Nemotron Synthetic. Ein 3B-Modell, das auf BeyondWeb trainiert wurde, übertrifft ein 8B-Modell, das auf Cosmopedia basiert, bei gleichem Token-Budget. Nach nur 66 Milliarden Tokens erreichte BeyondWeb eine Endgenauigkeit von etwa 64 Prozent – siebenmal so hoch wie RedPajama und 2,7-mal so hoch wie Nemotron-Synth. Die Forschung identifizierte zentrale Erkenntnisse: Vielfalt ist entscheidend – Standardmethoden liefern anfangs gute Ergebnisse, verlieren aber an Wirksamkeit, wenn sie anstelle von stilistischer Vielfalt auf eine einheitliche Struktur setzen. Zudem ist der Anteil an konversationellen Texten in Webdaten unter 2,7 Prozent, obwohl Chat die dominierende Nutzung von Sprachmodellen ist. Der Zugewinn durch mehr solche Daten stagniert schnell. Interessanterweise erweist sich auch ein kleineres Modell als effektiv: Ein 3B-Modell erzeugt qualitativ hochwertigere synthetische Daten als ein 1B-Modell, doch ab 8B zeigen sich kaum weitere Verbesserungen. Dies bedeutet, dass auch Organisationen mit begrenzten Ressourcen durch kleine Modelle hochwertige Trainingsdaten generieren können. Zudem zeigt die Studie, dass verschiedene Modelltypen – unabhängig von ihren Benchmark-Scores – ähnlich gute synthetische Daten liefern, was die Vorhersagbarkeit von Qualität erschwert. BeyondWeb wurde bereits erfolgreich in der Praxis eingesetzt: Es diente zur Ausbildung des 4,5B-Modells AFM von ArceeAI, wobei Datology eine skalierbare Pipeline für Trillionen von Tokens entwickelte. Obwohl das Framework derzeit nicht für freie Forschung verfügbar ist, zeigt es das Potenzial synthetischer Daten als Schlüsselressource für die nächste KI-Generation. Parallel dazu demonstrierte Microsoft mit Phi-4 im Dezember 2024 die Wirksamkeit von synthetischen Daten – trainiert auf 400 Milliarden Tokens im „Textbuchstil“ mit speziellen „Pivotal Tokens“. Nvidia veröffentlichte im selben Zeitraum Nemotron-4 340B mit fast 100 % synthetischem Instruct-Daten. Gleichzeitig wurde die „Model Collapse“-These widerlegt: Wenn sorgfältig erzeugt, fördern synthetische Daten die Entwicklung von KI. OpenAI bestätigte in der GPT-5-Präsentation, dass auch dessen Training mit synthetischen Daten erfolgte – erzeugt durch das interne o3-Modell. Der Fokus liegt dabei nicht auf Kostensenkung, sondern auf qualitativ hochwertigem, lernfähigen Datenmaterial. Dies wird von Experten wie Sébastien Bubeck, ehemaliger Leiter des Phi-Projekts, als strategischer Shift verstanden: Synthetische Daten sind kein Ersatz, sondern ein Werkzeug für echtes Lernen.