Llama 3 trifft auf MoE: Effizientes Upcycling

Die Skalierung großer Sprachmodelle (Large Language Models, LLMs) führt erheblich zu einer Leistungssteigerung, ist jedoch mit prohibitiv hohen Rechenkosten verbunden. Mixture-of-Experts (MoE)-Modelle bieten eine effiziente Alternative, da sie die Kapazität erhöhen, ohne dass die Rechenanforderungen proportional ansteigen. Die direkte Trainingsausführung von MoE-Modellen von Grund auf birgt jedoch Herausforderungen wie Überanpassung und Instabilität im Routing. Wir präsentieren ein effizientes Trainingsrezept, das auf vortrainierten dichten Checkpoints aufbaut und es ermöglicht, ein 8-Expert-Top-2-MoE-Modell auf Basis von Llama 3-8B mit weniger als 1 % des typischen Rechenaufwands für das Vortraining zu trainieren. Unser Ansatz verbessert die Leistung auf akademischen Benchmarks und erreicht eine 2 %-ige Steigerung der Zero-Shot-Genauigkeit auf MMLU, während während des Trainings eine Modell-FLOPs-Nutzung (MFU) von 46,8 % mit unserem Framework erzielt wird. Zudem integrieren wir ein Online-Upcycling in NeMo, um die nahtlose Nutzung vortrainierter Gewichte zu ermöglichen und so eine kosteneffiziente Entwicklung hochkapazitiver MoE-Modelle zu unterstützen.