NVIDIA lance le tout nouveau TensorRT Edge-LLM pour propulser l'IA physique et les robots autonomes
L'intelligence physique, allant des véhicules autonomes définis par logiciel aux robots humanoïdes, évolue rapidement. Le défi actuel ne réside plus dans l'exécution de modèles de langage (LLM), mais dans l'intégration d'un raisonnement haute fidélité, d'interactions multimodales en temps réel et de la planification de trajectoires, le tout dans des contraintes strictes de puissance et de latence. NVIDIA présente sa solution avec la dernière version de TensorRT Edge-LLM, un runtime d'inférence haute performance en C++ conçu pour les plateformes embarquées. Cette mise à jour offre une expansion significative de ses capacités fondamentales pour les puces NVIDIA DRIVE AGX Thor et NVIDIA Jetson Thor, introduisant des architectures avancées comme le mélange d'experts (MoE), le modèle open planning Cosmos Reason 2 pour l'intelligence physique, et les modèles Qwen3-TTS et Qwen-ASR pour le traitement vocal intégré. L'efficacité du raisonnement à grande échelle est essentielle sur le matériel embarqué. La nouvelle version prend en charge nativement les architectures MoE, notamment pour le modèle Qwen3. En activant uniquement un sous-ensemble de paramètres par token, cette approche permet aux appareils de bord de bénéficier de la puissance de raisonnement de modèles massifs tout en conservant la latence et l'empreinte de calcul d'un modèle plus petit. Cela permet aux développeurs d'augmenter considérablement l'intelligence de leurs systèmes autonomes sans dépasser les limites critiques de puissance et de temps de réponse requises pour des opérations en temps réel. Par ailleurs, TensorRT Edge-LLM permet le raisonnement hybride sur le matériel embarqué grâce au support du modèle Nemotron 2 Nano. Ce modèle utilise une architecture hybride Mamba-2-Transformer pour réduire l'empreinte mémoire, notamment via le stockage KV, tout en maintenant une précision élevée. Ce runtime optimise ces couches hybrides, permettant aux développeurs d'utiliser de grandes fenêtres de contexte pour des pipelines de génération augmentée ou des flux de travail agents, tout en respectant des contraintes mémoire strictes. Cette capacité de "pensée" dynamique permet aux assistants embarqués de basculer transparentement entre un raisonnement profond et une réponse conversationnelle immédiate. Pour l'interaction multimodale en temps réel, le runtime supporte désormais Qwen3-TTS et Qwen3-ASR. Contrairement aux pipelines traditionnels qui enchaînent des modèles séparés pour la reconnaissance et la synthèse vocale, générant ainsi une latence cumulative, ce modèle natif gère le traitement vocal de bout en bout. Optimisé pour les composants "Thinker" et "Talker", il permet une synthèse vocale naturelle et à faible latence directement sur la puce, facilitant des conversations fluides et coupables entre le conducteur et le véhicule, ou entre un robot humanoïde et son environnement. En ce qui concerne la robotique humanoïde, le support de Cosmos Reason 2 permet aux agents incorporés de raisonner comme les humains. En utilisant le bon sens physique et des capacités de chaîne de pensée, ce modèle comprend la dynamique du monde sans nécessiter d'annotations humaines. Optimisé par TensorRT Edge-LLM, il devient un modèle de planification primaire à faible latence, permettant aux robots d'évaluer des scénarios physiques complexes et de planifier leurs actions en temps réel. Enfin, l'industrie de la conduite autonome opère une transition majeure vers des modèles vision-langage-action (VLA) de bout en bout. Le framework Alpamayo de NVIDIA, incluant les modèles ouverts et les simulations, accélère le développement de véhicules autonomes sûrs et transparents. La future version Alpamayo 1 introduira une rationalité de type "Système 2" directement sur le bord. Contrairement aux modèles VLM standards qui se contentent de décrire une scène, Alpamayo planifie une trajectoire précise en générant d'abord une chaîne de causalité. TensorRT Edge-LLM intègre ces capacités, permettant l'exécution de ces modèles avancés. TensorRT Edge-LLM se positionne comme le runtime de référence open-source en C pur pour les besoins critiques de l'automobile et de la robotique, éliminant la dépendance à Python pour des déploiements plus prévisibles. Les développeurs peuvent dès maintenant explorer ces nouvelles fonctionnalités, y compris les exemples MoE et Alpamayo, sur le dépôt GitHub dédié ou via les dernières versions de DriveOS.
