il y a 17 jours

Pangu Pro MoE : Mélange d'Experts Groupés pour une Éparsité Efficace

Tang, Yehui ; Li, Xiaosong ; Liu, Fangcheng ; Guo, Wei ; Zhou, Hang ; Wang, Yaoyuan ; Han, Kai ; Yu, Xianzhi ; Li, Jinpeng ; Zang, Hui ; Mi, Fei ; Meng, Xiaojun ; Liu, Zhicheng ; Chen, Hanting ; Zheng, Binfan ; Chen, Can ; Yan, Youliang ; Tang, Ruiming ; Qin, Peifeng ; Chen, Xinghao ; Tao, Dacheng ; Wang, Yunhe

Voir les détails de l'article

Pangu Pro MoE : Mélange d'Experts Groupés pour une Éparsité Efficace

Résumé

L'émergence des Modèles d'Experts Mixtes (MoE) dans les Grands Modèles de Langue offre la promesse d'un coût d'exécution faible pour un nombre de paramètres et une capacité d'apprentissage beaucoup plus importants, car seules une petite fraction des paramètres sont activés pour chaque jeton d'entrée. Cependant, il est couramment observé que certains experts sont activés bien plus fréquemment que d'autres, ce qui entraîne une inefficacité du système lors de l'exécution parallèle des experts sur différents appareils. Par conséquent, nous introduisons les Modèles d'Experts Groupés (MoGE), qui regroupent les experts lors de leur sélection et équilibrent mieux la charge de travail des experts que le MoE. Cette approche contraint les jetons à activer un nombre égal d'experts au sein de chaque groupe d'experts prédéfini. Lorsque l'exécution du modèle est répartie sur plusieurs appareils, cette conception architecturale garantit une charge de calcul équilibrée entre les appareils, améliorant considérablement le débit, en particulier pendant la phase d'inférence.De plus, nous avons développé Pangu Pro MoE sur les processeurs neuronaux Ascend (NPUs), un modèle épars basé sur MoGE avec 72 milliards de paramètres au total, dont 16 milliards sont activés pour chaque jeton. La configuration de Pangu Pro MoE a été optimisée pour les Ascend 300I Duo et 800I A2 grâce à des études approfondies de simulation systémique. Nos expériences montrent que le MoGE permet effectivement un meilleur équilibrage de la charge des experts et une exécution plus efficace tant pour l'entraînement du modèle que pour son inférence sur les NPUs Ascend. Les performances d'inférence de Pangu Pro MoE atteignent 1148 jetons/s par carte et peuvent être encore améliorées jusqu'à 1528 jetons/s par carte grâce à l'accélération spéculative, surpassant ainsi des modèles Denses comparables dotés de 32 milliards et 72 milliards de paramètres.En outre, nous obtenons un excellent rapport coût-efficacité pour l'inférence du modèle sur les Ascend 300I Duo. Nos études démontrent que les NPUs Ascend sont capables d'entraîner Pangu Pro MoE avec une massive parallélisation, le rendant ainsi un modèle leader dans la classe des modèles avec moins de 100 milliards de paramètres totaux, surpassant notamment des modèles open-source renommés tels que GLM-Z1-32B et Qwen3-32B.