HyperAI
Back to Headlines

Pangu Pro MoGE : Une Nouvelle Architecture pour l'Équilibrage Optimal des Experts et l'Amélioration de l'Efficient Sparsity

il y a 14 jours

Résumé : Pangu Pro MoE – Mélange d'Experts Groupés pour une Efficacité Optimisée Dans le domaine des modèles de langage à grande échelle, l'émergence du Mélange d'Experts (MoE) a permis de concevoir des modèles avec un grand nombre de paramètres tout en limitant le coût de leur exécution, car seulement une petite fraction de ces paramètres est activée à chaque entrée. Cependant, une observation courante a révélé une activation inégale des experts, ce qui entraîne une inefficacité lorsqu'ils sont exécutés en parallèle sur différents dispositifs. Pour résoudre ce problème, une équipe dirigée par Yehui Tang et plusieurs autres chercheurs a introduit le Mélange d'Experts Groupés (MoGE) en mai 2025. Ce nouveau paradigme regroupe les experts lors de leur sélection, ensuring un réparti plus équilibré de la charge de travail entre eux. L'architecture MoGE impose à chaque jeton (token) d'activer un nombre égal d'experts dans chaque groupe d'experts prédéfini. Cette contrainte garantit un équilibrage optimal de la charge de calcul lors de la distribution du modèle sur plusieurs dispositifs. Le résultat est une amélioration significative du débit, surtout pendant la phase d'inférence. Le Pangu Pro MoE, un modèle basé sur MoGE, a été développé spécifiquement pour l'environnement d'Ascend NPUs (Neural Processing Units). Avec 72 milliards de paramètres au total, dont 16 milliards sont activés par jeton, ce modèle offre des performances exceptionnelles. Les simulations systèmes effectuées ont permis d'optimiser la configuration du Pangu Pro MoE pour les dispositifs Ascend 300I Duo et 800I A2, qui sont des processeurs spécialisés dans le traitement de données pour les réseaux neuronaux. Les expériences menées par l'équipe ont montré que MoGE permet non seulement une meilleure répartition des charges de travail mais aussi une exécution plus efficace, tant pour l'entraînement que pour l'inférence, sur les Ascend NPUs. En termes de performances d'inférence, Pangu Pro MoE atteint un débit de 1148 jetons par seconde par carte, qui peut être porté à 1528 jetons par seconde par carte grâce à l'accélération prédictive. Ces résultats surpassent les modèles denses de même taille, tels que des modèles de 32 milliards et 72 milliards de paramètres. Par ailleurs, les études menées ont démontré que les Ascend NPUs sont capables d'entraîner Pangu Pro MoE avec une parallélisation massive, ce qui en fait un modèle de référence dans la classe des modèles disposant de moins de 100 milliards de paramètres totaux. Pangu Pro MoE s'est également distingué en offrant un excellent rapport coût-performance pour l'inférence, surpassant des modèles open-source notables comme GLM-Z1-32B et Qwen3-32B. Évaluation par des Professionnels de l'Industrie et Profil de l'Entreprise Le développement du Pangu Pro MoE marquera probablement un tournant significatif dans le domaine des modèles de langage à grande échelle. Selon plusieurs experts, cette innovation apporte une solution efficace à l'un des principaux défis de l'utilisation de modèles sparces : l'équilibrage de la charge de travail. Cette avancée pourrait faciliter la mise en œuvre et le déploiement de modèles sparces sur une variété de plateformes hardware, y compris celles offertes par Huawei. Huawei est une entreprise technologique leader, reconnue pour ses contributions substantielles dans les domaines de l'intelligence artificielle et du traitement du langage naturel. L'introduction du Pangu Pro MoE renforce son engagement envers l'innovation et la recherche, soulignant son objectif de fournir des solutions technologiques performantes et accessibles. Le projet Pangu Pro MoE s'inscrit dans la continuité de ses initiatives visant à pushed les frontières de l'IA et à améliorer l'efficacité des modèles d'apprentissage profond.

Related Links