Skalengesetze für optimale Datendurchmischungen

Große Grundmodelle werden in der Regel auf Daten aus mehreren Domänen trainiert, wobei die Datenmischung – der Anteil jeder Domäne, der verwendet wird – eine entscheidende Rolle für die Modellleistung spielt. Der Standardansatz zur Auswahl dieser Mischung basiert auf Ausprobieren und Fehlerfinden, was bei groß angelegtem Vortraining unpraktikabel wird. Wir schlagen eine systematische Methode vor, um die optimale Datenmischung für jede Ziel-Domäne unter Verwendung von Skalierungsgesetzen zu bestimmen. Unser Ansatz prognostiziert die Verlustfunktion eines Modells der Größe ( N ), das mit ( D ) Token und einem bestimmten Domänen-Gewichtungsvektor ( h ) trainiert wurde, genau. Wir überprüfen die Universalität dieser Skalierungsgesetze durch die Demonstration ihrer Prognosekraft in drei unterschiedlichen und groß angelegten Szenarien: dem Vortraining von großen Sprachmodellen (LLM), nativen multimodalen Modellen (NMM) und großen visuellen Modellen (LVM). Darüber hinaus zeigen wir, dass diese Skalierungsgesetze auf neue Datenmischungen und verschiedene Skalen extrapolieren können: Ihre Parameter können mittels einiger kleiner Trainingsläufe genau geschätzt werden und dann zur Leistungsprognose bei größeren Skalen und unbekannten Domänen-Gewichtungen verwendet werden. Die Skalierungsgesetze ermöglichen es, die optimalen Domänen-Gewichte für jede Ziel-Domäne unter einem gegebenen Trainingsbudget (( N ), ( D )) abzuleiten, was eine fundierte Alternative zu kostspieligen Ausprobier-Methoden darstellt.