NVIDIA dévoile Hybrid-EP : une révolution dans la communication pour l’entraînement hyperscale des modèles MoE
Dans le cadre de l’entraînement des modèles de langage à grande échelle (LLM) utilisant des architectures Mixture-of-Experts (MoE), la communication en parallélisme d’experts (Expert Parallel, EP) représente un défi majeur, particulièrement à l’échelle hyperscale. Ce type de communication est fondamentalement de type all-to-all, mais sa nature dynamique et creuse — chaque token n’active qu’un petit nombre d’experts (top-k) parmi un grand ensemble — rend son implémentation et son optimisation complexes. Le modèle DeepSeek-V3, représentatif des nouvelles générations de MoE à fine-grain, illustre ces défis : sans optimisation, le temps de communication peut dépasser 50 % du temps total d’entraînement. De plus, les mécanismes de routage dynamique entraînent un déséquilibre de charge, avec certains experts « chauds » surchargés tandis que d’autres restent sous-utilisés, réduisant l’efficacité des ressources matérielles. Enfin, les frameworks actuels peinent à tirer pleinement parti des architectures matérielles avancées comme NVIDIA Blackwell, Quantum InfiniBand ou Spectrum-X Ethernet. Pour relever ces défis, NVIDIA a développé Hybrid-EP, une solution d’optimisation de communication intégrée dans Megatron Core, une bibliothèque open source pour l’entraînement à grande échelle. Hybrid-EP repose sur une architecture hybride combinant NVLink (intra-nœud) et RDMA sur réseau InfiniBand (inter-nœud), exploitant pleinement les capacités des plateformes NVIDIA. Il implémente deux opérateurs clés : dispatch (routage des tokens vers les experts) et combine (reconstruction des résultats). L’approche repose sur un pipeline de données finement granulaire, divisant les données en petits blocs pour masquer la latence de communication via un traitement en flux continu. Chaque bloc CUDA agit comme un canal indépendant, utilisant un petit nombre de Streaming Multiprocessors (SM) — par exemple, seulement 8 SM pour saturer NVLink sur DGX Hopper, ou 4 SM pour atteindre le débit maximal du NIC ConnectX-7. Cela libère des ressources GPU pour le calcul, maximisant le chevauchement entre communication et calcul. Hybrid-EP intègre des opérations natives en basse précision (FP8, BF16) pour les opérateurs dispatch et combine, et utilise des commandes TMA (Transfer Memory Access) pour optimiser les transferts mémoire sur NVLink. Le pipeline de dispatch (Figure 2) inclut des groupes de warp dédiés à la lecture (G2S), à l’envoi via RDMA (RDMA) et à l’écriture (S2G), tandis que le combine (Figure 3) réalise des réductions hiérarchiques, en combinant d’abord les résultats intra-nœud, puis inter-nœud. Cette approche garantit une bande passante algorithmique proche du maximum matériel, même dans des configurations à 32 GPUs (4 DGX Hopper) ou 36 GPUs (GB200NVL36 sur Grace Blackwell). Intégré dans Megatron Core, Hybrid-EP est disponible via une branche dédiée (DeepEP/Hybrid-EP) et propose des opérateurs PyTorch directement appelables. La gestion des tampons (buffers) est cruciale : deux types sont utilisés — des tampons « enregistrés » (globalement accessibles) et des tampons « normaux » (gérés par PyTorch). Une stratégie de pré-allocation à la taille maximale permet d’éviter des réallocations dynamiques coûteuses. Une synchronisation est nécessaire en amont pour déterminer les tailles de tampon, mais peut être évitée si une taille fixe suffisamment grande est définie à l’avance. Des tests sur Grace Blackwell montrent des gains significatifs : par exemple, DeepSeek-V3 atteint 943 TFLOPS avec Hybrid-EP (contre 829 avec DeepEP), soit une accélération de 1,14x. D’autres modèles comme Qwen 3 235B affichent des améliorations de 5 à 10 % en débit, confirmant l’efficacité de Hybrid-EP dans des scénarios réels. Ces résultats illustrent comment l’optimisation logicielle et matérielle combinée permet de réduire de 10 fois le coût et d’augmenter de 10 fois la performance de déploiement des modèles MoE. Évaluation : Les experts du secteur soulignent que Hybrid-EP représente une avancée majeure dans l’optimisation des communications pour les MoE, en combinant innovation logicielle (pipelines dynamiques, gestion fine des ressources) et exploitation optimale des architectures matérielles. NVIDIA, en intégrant cette solution dans ses frameworks clés, renforce sa position comme leader dans le développement de l’IA à grande échelle. L’approche hybride NVLink/RDMA, combinée à une conception basée sur CUDA et TMA, offre une scalabilité et une efficacité inégalées, prêtes à soutenir les prochaines générations de modèles d’intelligence artificielle.
