vor einem Monat

MoEs sind stärker, als man denkt: Hyper-Parallele Inferenz-Skalierung mit RoE

Soheil Zibakhsh Mohammad Samragh Kumari Nishu Lauren Hannah Arnav Kundu Minsik Cho

Abstract

Die Qualität der Generierung großer Sprachmodelle (LLMs) wird häufig durch die Anwendung von skalenbasierten Verfahren auf Sequenzebene während der Inferenz verbessert (z. B. Chain-of-Thought). Wir stellen ein ergänzendes Framework namens hyper-parallele Skalierung vor, das die Vorhersagegenauigkeit auf Token-Ebene erhöht. Die hyper-parallele Skalierung berechnet und aggregiert mehrere Ausgabevorschläge für ein einzelnes Token aus dem Modell. Wir implementieren dieses Konzept in Mixture-of-Experts (MoE)-Modellen, die wir Roster of Experts (RoE) nennen. RoE ist ein trainingsfreies Inferenzverfahren, das ein einzelnes MoE in eine dynamische Ensemble-Struktur aus mehreren MoEs verwandelt. RoE führt kontrollierte Stochastik in den Experten-Routing-Mechanismus ein, wodurch für jedes Token mehrere unterschiedliche Experten ausgewählt und deren Ausgaben aggregiert werden, um eine genauere Endausgabe zu erzielen. Um die berechnungstechnischen Kosten zu senken, führen wir eine effiziente Batch-Strategie und eine spezialisierte KV-Caching-Mechanismus ein, die sowohl die Berechnungs- als auch die Speicherbelastung minimieren. So ermöglicht RoE beispielsweise, dass ein 7B-MoE-Modell die Leistung eines 10,5B-MoE-Modells erreicht, während dabei 30 % weniger Rechenleistung für die Inferenz benötigt wird. Diese Verbesserungen werden ohne jegliche Feinabstimmung der Modellparameter erreicht.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

MoEs sind stärker, als man denkt: Hyper-Parallele Inferenz-Skalierung mit RoE

Soheil Zibakhsh Mohammad Samragh Kumari Nishu Lauren Hannah Arnav Kundu Minsik Cho

Abstract

KI mit KI entwickeln

Hyper Newsletters