NVIDIA simplifie l'inference IA à grande échelle avec Dynamo et Grove
L’intelligence artificielle évolue vers des systèmes complexes et collaboratifs, exigeant une inférence à grande échelle, capable de gérer des millions d’utilisateurs simultanés. Pour répondre à cette demande, NVIDIA a renforcé sa plateforme d’inférence complète, en s’appuyant sur Kubernetes, l’outil standard d’orchestration de conteneurs, pour gérer efficacement l’inférence multi-nœuds. La plateforme NVIDIA Dynamo, intégrée aux services Kubernetes gérés par les principaux fournisseurs cloud, permet d’optimiser l’inférence distribuée sur des clusters de GPU, notamment les systèmes NVIDIA Blackwell GB200 et GB300 NVL72. Un progrès clé réside dans l’inférence décomposée (disaggregated serving), qui sépare les phases de traitement d’entrée (prefill) et de génération (decode) sur des GPU optimisés séparément. Cette approche évite les goulets d’étranglement liés à l’exécution des deux phases sur les mêmes ressources, améliorant significativement la performance et l’efficacité. Des tests récents ont montré qu’avec Dynamo, les systèmes basés sur des modèles comme DeepSeek-R1 atteignent le meilleur coût par million de tokens, selon les benchmarks InferenceMAX de SemiAnalysis. Des entreprises comme Baseten ont ainsi obtenu un doublement de la vitesse d’inférence pour la génération de code à long contexte, sans coûts matériels supplémentaires. Pour gérer cette complexité, NVIDIA a lancé Grove, une API open source intégrée à Dynamo, qui simplifie l’orchestration d’architectures d’inférence multicomposants. Grove permet de décrire un système d’inférence entier (prefill, decode, routage, etc.) via une seule spécification déclarative dans Kubernetes. Grâce à des ressources personnalisées hiérarchiques (PodClique, ScalingGroup, PodCliqueSet), Grove gère automatiquement l’ordonnancement, l’auto-échelle multilayers, le placement topologique (ex. : sur le même domaine NVLink), l’ordre de démarrage des composants et la récupération après panne. Cela permet de traiter des systèmes complexes comme des unités uniques, plutôt que des pods isolés. Grove s’adapte à diverses architectures, de l’inférence classique à des pipelines agents multi-modèles. Il intègre des fonctionnalités avancées : auto-échelle interdépendante, mise à jour incrémentale sans perte de performance, et planification flexible (gang scheduling) qui permet d’ajuster indépendamment les composants selon les besoins. L’intégration avec des planificateurs comme le KAI Scheduler assure un placement optimal, réduisant la latence et évitant la fragmentation des ressources. Les entreprises comme Nebius, qui conçoivent leur cloud pour l’inférence à grande échelle, s’appuient sur cette technologie. Pour les développeurs, Grove est disponible sur GitHub, avec des guides et un support communautaire. L’objectif est de rendre l’inférence à l’échelle du datacenter simple, fiable et productivisée. NVIDIA invite les utilisateurs à découvrir Grove en direct au NVIDIA Booth #753 lors de KubeCon 2025 à Atlanta, où l’innovation en inférence distribuée est au cœur des échanges. Grâce à l’union de Kubernetes, Dynamo et Grove, l’inférence moderne devient plus performante, plus économe et plus accessible.
