HyperAIHyperAI

Command Palette

Search for a command to run...

Pangu Pro MoE : Mélange d'Experts Groupés pour une Éparsité Efficace

Résumé

L'émergence des Modèles d'Experts Mixtes (MoE) dans les Grands Modèles de Langue offre la promesse d'un coût d'exécution faible pour un nombre de paramètres et une capacité d'apprentissage beaucoup plus importants, car seules une petite fraction des paramètres sont activés pour chaque jeton d'entrée. Cependant, il est couramment observé que certains experts sont activés bien plus fréquemment que d'autres, ce qui entraîne une inefficacité du système lors de l'exécution parallèle des experts sur différents appareils. Par conséquent, nous introduisons les Modèles d'Experts Groupés (MoGE), qui regroupent les experts lors de leur sélection et équilibrent mieux la charge de travail des experts que le MoE. Cette approche contraint les jetons à activer un nombre égal d'experts au sein de chaque groupe d'experts prédéfini. Lorsque l'exécution du modèle est répartie sur plusieurs appareils, cette conception architecturale garantit une charge de calcul équilibrée entre les appareils, améliorant considérablement le débit, en particulier pendant la phase d'inférence.De plus, nous avons développé Pangu Pro MoE sur les processeurs neuronaux Ascend (NPUs), un modèle épars basé sur MoGE avec 72 milliards de paramètres au total, dont 16 milliards sont activés pour chaque jeton. La configuration de Pangu Pro MoE a été optimisée pour les Ascend 300I Duo et 800I A2 grâce à des études approfondies de simulation systémique. Nos expériences montrent que le MoGE permet effectivement un meilleur équilibrage de la charge des experts et une exécution plus efficace tant pour l'entraînement du modèle que pour son inférence sur les NPUs Ascend. Les performances d'inférence de Pangu Pro MoE atteignent 1148 jetons/s par carte et peuvent être encore améliorées jusqu'à 1528 jetons/s par carte grâce à l'accélération spéculative, surpassant ainsi des modèles Denses comparables dotés de 32 milliards et 72 milliards de paramètres.En outre, nous obtenons un excellent rapport coût-efficacité pour l'inférence du modèle sur les Ascend 300I Duo. Nos études démontrent que les NPUs Ascend sont capables d'entraîner Pangu Pro MoE avec une massive parallélisation, le rendant ainsi un modèle leader dans la classe des modèles avec moins de 100 milliards de paramètres totaux, surpassant notamment des modèles open-source renommés tels que GLM-Z1-32B et Qwen3-32B.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Pangu Pro MoE : Mélange d'Experts Groupés pour une Éparsité Efficace | Articles | HyperAI