HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA lance TensorRT Edge-LLM : un framework open source pour une inférence rapide des modèles linguistiques au bord dans l’automobile et la robotique

Les modèles de langage à grande échelle (LLM) et les systèmes multimodaux (VLM) s’imposent rapidement au-delà des centres de données, notamment dans les domaines de l’automobile et de la robotique. Les développeurs cherchent désormais à exécuter des agents conversationnels, une perception multimodale et une planification de haut niveau directement sur le véhicule ou le robot, là où la latence, la fiabilité et la capacité à fonctionner hors ligne sont critiques. Contrairement aux frameworks d’inférence LLM/VLM conçus pour les centres de données — axés sur la gestion de nombreuses requêtes simultanées et la maximisation du débit — l’inférence embarquée nécessite une solution spécialisée. NVIDIA présente TensorRT Edge-LLM, un nouveau framework open source en C++ dédié à l’inférence performante des LLM et VLM sur les plateformes embarquées. Conçu pour les plateformes NVIDIA DRIVE AGX Thor et NVIDIA Jetson Thor, il est intégré à la version JetPack 7.1 et disponible sur GitHub. Doté d’une architecture légère et de dépendances minimales, TensorRT Edge-LLM est optimisé pour les contraintes des environnements embarqués : faible consommation mémoire, faible latence et efficacité énergétique. Il intègre des fonctionnalités avancées comme le décodage spéculatif EAGLE-3, la quantification NVFP4 et le préremplissage par morceaux (chunked prefill), permettant des performances exceptionnelles dans des cas d’usage réels. Des comparaisons avec des frameworks populaires comme vLLM montrent une avance significative en termes de latence et de débit sur plateformes embarquées. Des partenaires comme Bosch, ThunderSoft et MediaTek adoptent déjà TensorRT Edge-LLM pour leurs produits embarqués. Bosch développe un cockpit intelligent avec Microsoft et NVIDIA, intégrant une assistance vocale naturelle grâce à une reconnaissance automatique de la parole (ASR) et une synthèse vocale (TTS) embarquées, combinées à un LLM exécuté via TensorRT Edge-LLM. ThunderSoft intègre le framework dans son AIBOX basé sur DRIVE AGX Orin pour offrir une expérience conversationnelle réactive sur le véhicule, tout en respectant les contraintes de puissance et de mémoire. MediaTek utilise TensorRT Edge-LLM sur son SoC CX1 pour des applications d’IA de cabine et d’interfaces homme-machine, y compris la surveillance du conducteur, et contribue activement au développement du framework. Techniquement, TensorRT Edge-LLM suit un flux end-to-end en trois étapes : une pipeline Python pour exporter les modèles Hugging Face vers ONNX avec prise en charge de la quantification, des adapters LoRA et du décodage spéculatif ; un constructeur d’engins TensorRT optimisé pour le matériel embarqué ; et un runtime C++ pour l’inférence en temps réel. Ce runtime gère les phases de préremplissage et de décodage autoregressif, essentielles pour les modèles génératifs. Disponible dès maintenant via JetPack 7.1 pour Jetson et intégré à DriveOS pour les plateformes DRIVE AGX Thor, TensorRT Edge-LLM facilite le passage des modèles Hugging Face à l’exécution en production sur les plateformes embarquées. Les développeurs peuvent commencer par télécharger JetPack 7.1, cloner le dépôt GitHub, suivre le guide de démarrage rapide et explorer les exemples. Un guide de personnalisation est également disponible. En somme, TensorRT Edge-LLM répond à un besoin croissant d’inférence LLM/VLM performante, fiable et efficace sur le bord, en offrant une base solide pour les prochaines générations d’applications intelligentes embarquées. Son architecture modulaire, son support open source et ses performances optimisées en font un pilier clé du développement d’IA embarquée dans l’automobile et la robotique.

Liens associés

NVIDIA lance TensorRT Edge-LLM : un framework open source pour une inférence rapide des modèles linguistiques au bord dans l’automobile et la robotique | Articles tendance | HyperAI