HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA Blackwell accélère les inférences MoE de 2,8x avec les dernières optimisations logicielles

L’essor des modèles d’intelligence artificielle (IA) entraîne une demande croissante de génération de tokens, ce qui pousse les plateformes à optimiser leur performance en termes de débit de tokens par watt pour réduire le coût par million de tokens. NVIDIA continue d’innover grâce à une conception intégrée poussée des GPU, CPU, réseau, logiciels, alimentation électrique et refroidissement. Cette approche permet d’augmenter significativement le débit de tokens par watt, renforçant ainsi l’efficacité énergétique et économique des infrastructures d’IA. En parallèle, les mises à jour logicielles, notamment dans le cadre de l’infrastructure Blackwell, permettent d’extraire davantage de performance des plateformes existantes, prolongeant la productivité du vaste parc de GPU NVIDIA déployé par les fournisseurs de services cloud, les entreprises et les développeurs de modèles. Le nouveau logiciel NVIDIA TensorRT-LLM, optimisé pour l’inférence de grands modèles linguistiques (LLM), a permis des gains de performance considérables sur le rack-scale platform GB200 NVL72, qui regroupe 72 GPU Blackwell interconnectés par le NVLink de 5e génération et des commutateurs NVLink, offrant 1 800 Go/s de bande passante bidirectionnelle. Cette architecture est particulièrement adaptée aux modèles à experts mélangés (MoE) creux, comme DeepSeek-R1, un modèle de 671 milliards de paramètres qui active 37 milliards de paramètres par token. Grâce à des optimisations logicielles et matérielles, le débit de tokens par GPU a augmenté jusqu’à 2,8 fois en trois mois, notamment grâce à des techniques comme le disaggregated serving (prétraitement sur un ensemble de GPU, décodage sur un autre) et l’exploitation du format NVFP4, un format flottant 4 bits conçu par NVIDIA pour préserver l’exactitude. Sur la plateforme HGX B200, composée de huit GPU Blackwell, deux technologies clés ont permis des progrès majeurs : la multi-token prediction (MTP), qui améliore fortement le débit sur l’ensemble des niveaux d’interactivité, et l’utilisation du format NVFP4, qui exploite pleinement la puissance de calcul du GPU Blackwell tout en maintenant une précision élevée. Les courbes de débit en fonction de l’interactivité montrent des gains significatifs, notamment pour des longueurs de séquence 1K/1K, 8K/1K et 1K/8K, confirmant l’efficacité de ces optimisations dans des scénarios réels. Ces avancées s’inscrivent dans une stratégie continue d’optimisation logicielle et matérielle de NVIDIA, qui permet d’obtenir des gains de performance non seulement avec de nouveaux produits, mais aussi en améliorant constamment les plateformes existantes. L’architecture Blackwell, combinée à l’écosystème logiciel complet (TensorRT-LLM, TensorRT Model Optimizer), démontre son leadership en inférence, offrant aux utilisateurs une capacité de traitement accrue, une meilleure expérience utilisateur et une réduction des coûts d’exploitation. Ces progrès renforcent la valeur de l’investissement dans l’infrastructure NVIDIA, tant pour les acteurs du cloud que pour les entreprises en quête d’IA performante et économe. Expertise sectorielle : Selon des analystes de l’industrie, les gains de performance de 2,8x sur le débit de tokens par GPU sont exceptionnels, notamment dans le contexte de modèles MoE complexes. Des experts de l’IA soulignent que l’adoption du format NVFP4, couplée à la MTP, représente une avancée majeure pour l’inférence à grande échelle, en équilibrant performance, précision et efficacité énergétique. Des entreprises comme Microsoft, Amazon et Google, qui explorent des modèles MoE, s’appuient sur ces avancées pour améliorer la réactivité de leurs services d’IA. NVIDIA, en tant que leader de l’infrastructure d’IA, continue de définir les standards de performance, en combinant innovation matérielle et logicielle.

Liens associés