Command Palette
Search for a command to run...
Zitong Yang Aonan Zhang Hong Liu Tatsunori Hashimoto Emmanuel Candès Chong Wang Ruoming Pang

Abstract
Wir stellen Synthetic Bootstrapped Pretraining (SBP) vor, ein Verfahren zur Vortrainierung von Sprachmodellen (LM), das zunächst ein Modell der Beziehungen zwischen Dokumenten aus dem Vortrainingsdatensatz lernt und dieses anschließend nutzt, um eine umfangreiche neue Korpus-Sammlung zur gemeinsamen Trainierung zu synthetisieren. Während die herkömmliche Vortrainierung Sprachmodelle darin unterweist, kausale Korrelationen zwischen Tokens innerhalb einzelner Dokumente zu erfassen, ist sie nicht darauf ausgelegt, die reichhaltigen, lernbaren Korrelationen zwischen verschiedenen Dokumenten effizient zu modellieren – Korrelationen, die potenziell zu einer verbesserten Leistung führen könnten. Wir validieren SBP durch die Einführung einer compute-ähnlichen Vortrainingskonfiguration und trainieren ein 3-Billionen-Parameter-Modell von Grund auf auf bis zu 1 T Token. Wir stellen fest, dass SBP konsistent gegenüber einer starken Wiederholungs-Benchmark-Methode abschneidet und einen erheblichen Teil der Leistungssteigerung erreicht, die theoretisch durch eine Oracle-Obergrenze erzielbar wäre, die Zugriff auf 20-mal mehr eindeutige Daten hätte. Eine qualitative Analyse zeigt, dass die synthetisierten Dokumente über einfache Paraphrasen hinausgehen: SBP fasst zunächst einen zentralen Begriff aus den Ausgangsmaterialien ab und baut darauf eine neue Erzählstruktur auf. Neben der starken empirischen Leistung lässt sich SBP zudem natürlich im Sinne einer bayesschen Interpretation verstehen: Der Synthesizer lernt implizit, die latenten, zwischen verwandten Dokumenten gemeinsamen Konzepte abzustrahlen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.