Command Palette
Search for a command to run...
Llama 3 trifft auf MoE: Effizientes Upcycling
Llama 3 trifft auf MoE: Effizientes Upcycling
Aditya Vavre Ethan He Dennis Liu Zijie Yan June Yang Nima Tajbakhsh Ashwath Aithal
Zusammenfassung
Die Skalierung großer Sprachmodelle (Large Language Models, LLMs) führt erheblich zu einer Leistungssteigerung, ist jedoch mit prohibitiv hohen Rechenkosten verbunden. Mixture-of-Experts (MoE)-Modelle bieten eine effiziente Alternative, da sie die Kapazität erhöhen, ohne dass die Rechenanforderungen proportional ansteigen. Die direkte Trainingsausführung von MoE-Modellen von Grund auf birgt jedoch Herausforderungen wie Überanpassung und Instabilität im Routing. Wir präsentieren ein effizientes Trainingsrezept, das auf vortrainierten dichten Checkpoints aufbaut und es ermöglicht, ein 8-Expert-Top-2-MoE-Modell auf Basis von Llama 3-8B mit weniger als 1 % des typischen Rechenaufwands für das Vortraining zu trainieren. Unser Ansatz verbessert die Leistung auf akademischen Benchmarks und erreicht eine 2 %-ige Steigerung der Zero-Shot-Genauigkeit auf MMLU, während während des Trainings eine Modell-FLOPs-Nutzung (MFU) von 46,8 % mit unserem Framework erzielt wird. Zudem integrieren wir ein Online-Upcycling in NeMo, um die nahtlose Nutzung vortrainierter Gewichte zu ermöglichen und so eine kosteneffiziente Entwicklung hochkapazitiver MoE-Modelle zu unterstützen.