HyperAI
vor 19 Tagen

Pangu Pro MoE: Mischung gruppierten Experten für effiziente Sparsamkeit

Tang, Yehui ; Li, Xiaosong ; Liu, Fangcheng ; Guo, Wei ; Zhou, Hang ; Wang, Yaoyuan ; Han, Kai ; Yu, Xianzhi ; Li, Jinpeng ; Zang, Hui ; Mi, Fei ; Meng, Xiaojun ; Liu, Zhicheng ; Chen, Hanting ; Zheng, Binfan ; Chen, Can ; Yan, Youliang ; Tang, Ruiming ; Qin, Peifeng ; Chen, Xinghao ; Tao, Dacheng ; Wang, Yunhe
Pangu Pro MoE: Mischung gruppierten Experten für effiziente Sparsamkeit
Abstract

Die Einführung von Mixture of Experts (MoE) in großen Sprachmodellen verspricht einen geringen Ausführungspreis für eine deutlich größere Anzahl von Modellparametern und ein erhöhtes Lernvermögen, da nur ein kleiner Teil der Parameter für jedes Eingabetoken aktiviert wird. Allerdings wird häufig beobachtet, dass einige Experten viel häufiger aktiviert werden als andere, was zu Systemineffizienz führt, wenn die Experten auf verschiedenen Geräten parallel ausgeführt werden. Daher stellen wir Mixture of Grouped Experts (MoGE) vor, eine Methode, die die Experten während der Auswahl gruppieren und die Arbeitsbelastung der Experten besser als MoE ausgleichen kann. Sie beschränkt die Tokens darauf, innerhalb jeder vordefinierten Expertengruppe eine gleiche Anzahl von Experten zu aktivieren. Wenn die Modellausführung auf mehreren Geräten verteilt ist, stellt diese architektonische Gestaltung sicher, dass die Rechenlast über alle Geräte gleichmäßig verteilt ist, was den Durchsatz erheblich steigert, insbesondere während der Inferenzphase.Darüber hinaus haben wir Pangu Pro MoE auf Ascend NPUs entwickelt, einem dünnbesetzten Modell basierend auf MoGE mit insgesamt 72 Milliarden Parametern, von denen 16 Milliarden für jedes Token aktiviert werden. Die Konfiguration von Pangu Pro MoE wurde durch umfangreiche Systemsimulationen für Ascend 300I Duo und 800I A2 optimiert. Unsere Experimente zeigen, dass MoGE tatsächlich zu einer besseren Lastausgleichung der Experten und einer effizienteren Ausführung sowohl bei der Modelltrainierung als auch bei der Inferenz auf Ascend NPUs führt. Die Inferenzleistung von Pangu Pro MoE beträgt 1148 Tokens/s pro Karte und kann durch spekulativen Beschleunigungstechniken weiter verbessert werden bis zu 1528 Tokens/s pro Karte, wodurch es vergleichbare dichte Modelle mit 32 Milliarden und 72 Milliarden Parametern übertrifft.Zudem erreichen wir ein ausgezeichnetes Leistungs-Kosten-Verhältnis für die Inferenz auf Ascend 300I Duo. Unsere Studien zeigen außerdem, dass Ascend NPUs in der Lage sind, Pangu Pro MoE mit massiver Parallelisierung zu trainieren, um es zum führenden Modell in der Klasse unter 100 Milliarden Gesamtparameter zu machen. Dies übertreffen bekannte Open-Source-Modelle wie GLM-Z1-32B und Qwen3-32B.