HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA lance l'architecture d'inférence hétérogène Vera Rubin + LPX pour viser une IA à faible latence et l'ère des agents

Au salon NVIDIA GTC de cette année, NVIDIA a présenté une nouvelle combinaison d'architectures destinée aux scénarios d'inférence IA de prochaine génération : le système Vera Rubin NVL72 GPU et le système d'inférence Groq 3 LPX. L'objectif central de ce duo est de résoudre un paradoxe clé croissant dans les applications actuelles en matière d'IA : comment garantir un débit massif tout en offrant des expériences interactives à faible latence et prévisibles ? Le LPX constitue un système d'accélération d'inférence conçu pour le déploiement au niveau du rack. Chaque rack se compose de 32 baies de calcul refroidies par liquide ; chaque baie intègre huit accélérateurs LPU (Language Processing Unit) ainsi que des processeurs hôtes et des modules d'extension de communication. Grâce à sa conception sans câblage et à ses interconnexions haute bande passante, ce système permet des transferts de données efficaces entre différentes baies, voire entre racks différents, réduisant ainsi la surcharge de communication et les variations de latence inhérentes à l'inférence distribuée. Sur le plan architectural, le cœur du LPX réside dans la puce entièrement nouvelle Groq 3 LPU. Contrairement aux GPUs traditionnels qui privilégient la puissance de pointe brute, le LPU met davantage l'accent sur « l'exécution déterministe » et le contrôle du flux de données : le compilateur assure une orchestration unifiée du calcul, de la mémoire et des communications afin d'éviter les fluctuations de latence dues à l'imprédictibilité lors de l'exécution. Sa conception utilise une grande capacité de SRAM intégrée comme principal espace de travail et réduit les pertes de performances liées aux défauts de cache grâce à un pilotage explicite des données. Cette approche convient particulièrement bien à la phase d'inférence dominée par le décodage — un goulot d'étranglement critique pour l'expérience utilisateur actuelle avec les grands modèles. Alors que les applications en IA évoluent vers l'interaction temps réel depuis le traitement hors ligne, la charge d'inférence subit une transformation structurelle. Par exemple, les assistants de codage, les robots conversationnels et les systèmes multi-étapes basés sur des agents sont extrêmement sensibles au « premier jeton généré » (Time-to-First-Token) et à la latence par jeton. Parallèlement, des contextes plus longs et des chaînes d'inférence étendues font désormais de la transmission des données et de la bande passante mémoire de nouveaux facteurs limitants. Dans ce contexte, une architecture matérielle unique peine à concilier simultanément débit et rapidité de réponse. La solution proposée par NVIDIA consiste en une « inférence hétérogène ». Dans ce mode opératoire, le GPU Vera Rubin traite les tâches exigeant un haut débit telles que la gestion de larges contextes et les calculs d'attention, tandis que le LPX se concentre exclusivement sur les phases critiques de décodage sensibles à la latence, notamment l'exécution des réseaux feed-forward (FFN) et des experts MoE. Les deux composants collaborent via des liaisons rapides, permettant non seulement de maintenir une capacité globale élevée mais aussi d'améliorer considérablement les performances interactives. Cette architecture s'avère également adaptée aux applications émergentes de type agent. Lors de raisonnements itératifs multiples, d'appels d'outils et de boucles de rétroaction, la latence s'accumule étape après étape, impactant directement l'expérience utilisateur. La capacité du LPX à fournir une exécution à faible variation et prévisible en fait un complément essentiel pour ces cas d'utilisation. Dans son ensemble, l'alliance de Vera Rubin et du LPX ne représente pas simplement une mise à jour matérielle, mais marque un tournant dans la philosophie de conception des systèmes d'inférence en IA : on passe d'une optimisation basée sur une seule métrique de performance à un équilibre multidimensionnel adapté aux vrais scénarios d'application. Alors que l'IA progresse de la simple « génération de contenu » vers l'« exécution de tâches », cette architecture pourrait devenir la forme fondamentale des infrastructures IA de prochaine génération.

Liens associés