HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA accélère l'entraînement MoE avec des noyaux fusionnés

NVIDIA a présenté de nouveaux noyaux de calcul fusionnés conçus spécifiquement pour accélérer l'entraînement des modèles de type Mixture-of-Experts. Ces architectures, devenues incontournables dans le domaine de l'intelligence artificielle, permettent de doubler la capacité des réseaux tout en n'activant qu'une fraction des paramètres par token, optimisant ainsi l'utilisation des ressources matérielles. Toutefois, leur passage à l'échelle se heurte à des goulots d'étranglement mémoire et à des latences de synchronisation. Pour y remédier, l'entreprise a développé une famille de noyaux personnalisés écrits en CuTe DSL, qui réorganisent fondamentalement l'exécution des calculs. Ces nouvelles implémentations résolvent trois défis majeurs. Premièrement, elles fusionnent les opérations de multiplication matricielle générale avec les fonctions d'activation GLU, telles que SwiGLU et GeGLU. En réarrangeant les poids directement en mémoire lors du chargement des modèles, un même bloc de threads peut traiter simultanément l'entrée et la porte, évitant ainsi des allers-retours coûteux vers la mémoire externe. Deuxièmement, NVIDIA a supprimé la dépendance au processeur principal. Grâce au suivi des tokens directement sur le GPU, les lancements de calculs n'exigent plus de synchronisation hôte-périphérique, permettant l'utilisation de graphes CUDA complets sans interruption. Troisièmement, la quantification en basse précision MXFP8 et NVFP4, essentielle pour réduire la charge mémoire, est désormais intégrée directement dans les noyaux de calcul, éliminant les lectures et écritures intermédiaires. Les benchmarks internes confirment l'efficacité de cette approche. Au niveau micro, les noyaux accélèrent le passage avant d'un facteur 1,3 à 1,4 et le passage arrière jusqu'à 2,1 fois par rapport aux chemins d'exécution traditionnels. Ces gains se traduisent concrètement lors de l'entraînement de bout en bout. Les configurations DeepSeek-V3 ont enregistré une amélioration de 8 %, tandis que les runs de pré-entraînement GPT-OSS ont connu une accélération remarquable de 93 %. Cette optimisation permet également de maintenir les cœurs Tensor constamment alimentés et de superposer efficacement les communications entre plusieurs GPU. Les développeurs peuvent désormais intégrer ces noyaux via trois niveaux d'abstraction : cuDNN Frontend, Transformer Engine ou Megatron-Core. Cette modularité garantit une adoption progressive selon les pipelines existants. NVIDIA annonce également que son équipe de recherche continue de développer de nouvelles fonctions de fusion, avec un support prévu pour le framework JAX et des améliorations axées sur la compilation anticipée et la réduction des surcoûts de configuration. Ces avancées positionnent les modèles experts multiples comme une norme plus efficace pour les futurs systèmes d'intelligence artificielle à grande échelle.

Liens associés