HyperAIHyperAI
Back to Headlines

Nvidia dévoile le Rubin CPX : une architecture décentralisée pour réduire drastiquement le coût de l’inférence à long contexte

il y a 10 jours

À partir de la seconde moitié de 2026 jusqu’au premier semestre de 2027, un pic d’investissement dans les systèmes XPU accélérés pour les charges de travail d’intelligence artificielle est en cours d’approche, alimenté par les hyperscalers, les fournisseurs de cloud et les grands acteurs comme OpenAI. Cette croissance croissante de la demande pour les accélérateurs XPU entraîne une pression sans précédent sur l’offre de mémoire HBM (High Bandwidth Memory), dont la fabrication devient de plus en plus complexe avec l’augmentation de la hauteur des empilements, de la densité des DRAM et de la bande passante. Cette évolution entraîne une baisse inévitable des rendements de production, creusant le déséquilibre entre une demande massive et une offre limitée. Face à cette contrainte, Nvidia introduit le GPU accélérateur Rubin CPX, conçu pour les tâches d’inférence à très long contexte — notamment la génération de code, l’analyse de texte ou le traitement vidéo — qui nécessitent beaucoup de puissance de calcul mais peu de bande passante mémoire. Ces charges de travail, qui représentent environ un sixième des cas d’usage d’IA, sont coûteuses à exécuter sur des GPU classiques équipés de HBM, car le traitement du contexte (prefill) et la génération de tokens (decode) ont des besoins différents en ressources. Nvidia propose donc une décomposition (disaggregation) du workflow : un Rubin CPX traite le contexte, tandis qu’un autre Rubin GPU s’occupe de la génération des tokens, avec un cache KV partagé pour éviter le recalcul du contexte à chaque token. Cette approche permet une performance 6 fois supérieure pour une augmentation de 2,25 fois du calcul, selon Nvidia. Le Rubin CPX n’est pas simplement une version réduite d’un GPU datacenter. Contrairement aux précédents accélérateurs d’inférence basés sur des architectures gaming ou workstation (comme les TU102, GA102, AD102), le Rubin CPX repose sur une architecture plus proche du Rubin R100/R200 en cours de développement, mais avec une mémoire GDDR7 (128 Go par socket, contre 288 Go HBM3E ou 1 024 Go HBM4E dans les versions haut de gamme). Cette mémoire, moins chère et moins gourmande en bande passante, permet de réduire le coût tout en augmentant les volumes. Le CPX atteint 30 petaflops à la précision FP4 (NVFP4), grâce à une fréquence augmentée de 20 % par rapport à une seule puce Rubin, sans bifurcation de performance comme avec Blackwell. Une innovation clé réside dans l’accélération dédiée du traitement d’attention, annoncée par Ian Buck, vice-président hyperscale et HPC. Ces unités spécifiques, intégrées dans le Rubin, sont particulièrement efficaces pour les modèles modernes, car le calcul d’attention est intensif en calcul mais peu exigeant en bande passante mémoire. Cela rend le Rubin CPX idéal pour les tâches de long contexte. Dans le système de rack Vera Rubin, l’ajout de 144 accélérateurs Rubin CPX permet d’atteindre 4,4 exaflops supplémentaires à FP4, 300 TB/s de bande passante supplémentaire et 25 TB de mémoire rapide. Nvidia estime que chaque 100 millions de dollars investis dans ces systèmes génèrent jusqu’à 5 milliards de dollars de revenus sur quatre ans via des applications ou API d’inférence. Même sans chiffres comparatifs, cette solution s’impose comme une alternative rentable pour les charges de long contexte. Enfin, la décomposition peut s’étendre au niveau du rack : des nœuds distincts Vera Rubin et Vera Rubin CPX peuvent être interconnectés sans NVLink, permettant une flexibilité accrue. Ces racks pourraient aussi servir à des modèles plus petits, au-delà du traitement vidéo et du code. La mise en œuvre concrète dépendra des prix annoncés en 2026, mais cette stratégie marque une avancée significative dans l’optimisation économique de l’infrastructure d’IA.

Related Links