HyperAI
Back to Headlines

Pangu Pro MoE optimiert Expertenbalancing und Leistung aufAscend NPUs

vor 14 Tagen

Pangu Pro MoE: Mischung von Gruppenexperten für effiziente Sparsität Die Autoren Yehui Tang, Xiaosong Li, Fangcheng Liu, Wei Guo, Hang Zhou, Yaoyuan Wang, Kai Han, Xianzhi Yu, Jinpeng Li, Hui Zang, Fei Mi, Xiaojun Meng, Zhicheng Liu, Hanting Chen, Binfan Zheng, Can Chen, Youliang Yan, Ruiming Tang, Peifeng Qin, Xinghao Chen, Dacheng Tao und Yunhe Wang haben ein neues Modell namens Pangu Pro MoE vorgestellt, das auf der Technologie der Mischung von Experten (MoE) basiert. Dieses Modell verspricht, den Ausführungspreis für eine größere Anzahl von Modellparametern und Lernkapazitäten zu reduzieren, da nur ein kleiner Teil der Parameter für jedes Eingabetoken aktiviert wird. Ein bekanntes Problem bei MoE-Modellen ist jedoch die ungleiche Lastverteilung zwischen den Experten, was zu Systemineffizienzen führt, wenn die Experten auf verschiedenen Geräten parallel ausgeführt werden. Um dieses Problem zu lösen, haben die Forscher die Mischung von Gruppenexperten (MoGE) entwickelt. Bei MoGE werden die Experten während der Auswahl in Gruppen zusammengefasst, um eine bessere Lastverteilung sicherzustellen. Jedes Token aktiviert innerhalb jeder vordefinierten Expertengruppe die gleiche Anzahl von Experten. Diese architektonische Neuerung gewährleistet eine ausgewogene Rechenaufwandsverteilung über mehrere Geräte hinweg, was die Durchsatzrate erheblich verbessert, insbesondere während der Inferenzphase. Das Team hat Pangu Pro MoE auf Ascend NPUs (Neural Processing Units) implementiert, einem sparsen Modell basierend auf MoGE mit insgesamt 72 Milliarden Parametern, von denen 16 Milliarden pro Token aktiviert werden. Die Konfiguration von Pangu Pro MoE wurde durch intensive Systemsimulationen für dieAscend 300I Duo und 800I A2 optimiert. Experimente zeigten, dass MoGE tatsächlich zu einer besseren Lastverteilung und effizienteren Ausführung sowohl beim Training als auch beim Inferenzprozess auf Ascend NPUs führt. Die Inferenzleistung von Pangu Pro MoE erreicht 1148 Tokens pro Sekunde pro Karte und kann durch spekulativen Beschleunigungstechniken sogar auf 1528 Tokens pro Sekunde pro Karte gesteigert werden. Dies übertrifft vergleichbare dichte Modelle wie 32B- und 72B-Modelle. Des Weiteren wird eine ausgezeichnete Leistung pro Kostenquote für die Inferenz auf Ascend 300I Duo erreicht. Die Studien zeigen, dass Ascend NPUs in der Lage sind, Pangu Pro MoE mit massiver Parallelisierung zu trainieren, was es zu einem führenden Modell in der Klasse der Modelle mit weniger als 100 Milliarden Parametern macht. Es übertrifft dabei bekannte Open-Source-Modelle wie GLM-Z1-32B und Qwen3-32B. Industrieinsider bewerten die Einführung von Pangu Pro MoE als bedeutenden Fortschritt in der Entwicklung von großen Sprachmodellen. Die Innovation von MoGE adressiert ein zentrales Problem der ungleichen Lastverteilung, das viele MoE-Modelle bisher behinderte. Das Modell wird besonders für seine Ausgewogenheit und Effizienz gelobt, die es bei der Verarbeitung großer Datenmengen ermöglicht, ohne dass die Rechenleistung einzelner Geräte überbeansprucht wird. Huawei, der Hersteller der Ascend NPUs, siehtgreat Potenzial für die Verwendung von Pangu Pro MoE in verschiedenen Anwendungen, von Sprachverarbeitung bis hin zu komplexen Analyseaufgaben. Die Fähigkeit des Modells, die Last gleichmäßig zu verteilen, macht es zu einer attraktiven Option für Unternehmen, die hohe Leistung bei moderaten Kosten benötigen.

Related Links