HyperAIHyperAI

Command Palette

Search for a command to run...

Llama 3 trifft auf MoE: Effizientes Upcycling

Aditya Vavre Ethan He Dennis Liu Zijie Yan June Yang Nima Tajbakhsh Ashwath Aithal

Zusammenfassung

Die Skalierung großer Sprachmodelle (Large Language Models, LLMs) führt erheblich zu einer Leistungssteigerung, ist jedoch mit prohibitiv hohen Rechenkosten verbunden. Mixture-of-Experts (MoE)-Modelle bieten eine effiziente Alternative, da sie die Kapazität erhöhen, ohne dass die Rechenanforderungen proportional ansteigen. Die direkte Trainingsausführung von MoE-Modellen von Grund auf birgt jedoch Herausforderungen wie Überanpassung und Instabilität im Routing. Wir präsentieren ein effizientes Trainingsrezept, das auf vortrainierten dichten Checkpoints aufbaut und es ermöglicht, ein 8-Expert-Top-2-MoE-Modell auf Basis von Llama 3-8B mit weniger als 1 % des typischen Rechenaufwands für das Vortraining zu trainieren. Unser Ansatz verbessert die Leistung auf akademischen Benchmarks und erreicht eine 2 %-ige Steigerung der Zero-Shot-Genauigkeit auf MMLU, während während des Trainings eine Modell-FLOPs-Nutzung (MFU) von 46,8 % mit unserem Framework erzielt wird. Zudem integrieren wir ein Online-Upcycling in NeMo, um die nahtlose Nutzung vortrainierter Gewichte zu ermöglichen und so eine kosteneffiziente Entwicklung hochkapazitiver MoE-Modelle zu unterstützen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp