HyperAI

NVIDIA TensorRT LLM permet aux développeurs de créer des moteurs d’inférence hautement performants pour les grands modèles linguistiques (LLM), mais le déploiement d’une nouvelle architecture nécessitait traditionnellement un effort manuel important. Pour relever ce défi, NVIDIA annonce aujourd’hui la disponibilité en version bêta de AutoDeploy, une fonctionnalité clé de TensorRT LLM. AutoDeploy compile directement des modèles PyTorch standards en graphes optimisés pour l’inférence, sans exiger que les optimisations spécifiques à l’inférence soient intégrées au code du modèle. Cette approche permet de réduire considérablement le temps de déploiement, en transférant la responsabilité de l’optimisation à un compilateur, ce qui sépare nettement la conception du modèle de son optimisation pour l’inférence. AutoDeploy est particulièrement adapté aux modèles émergents, aux architectures de recherche internes ou aux versions rapides du modèle open source, où une réimplémentation manuelle serait coûteuse ou non justifiée. Il permet un déploiement immédiat à la sortie du modèle, avec des performances de base compétitives, tout en laissant la voie ouverte à des optimisations progressives au fil de l’évolution du modèle. Le fonctionnement d’AutoDeploy repose sur une chaîne de compilation automatisée. Il capture le graphe computationnel d’un modèle PyTorch via torch.export, puis applique une série de transformations pour normaliser les blocs de construction courants — comme l’attention, les couches RoPE, les modèles à mélanges d’experts (MoE) ou les modèles à état d’espace (SSM) — sous forme d’opérations personnalisées standardisées. Cette étape garantit une représentation cohérente et interprétable, facilitant les optimisations ultérieures. Les développeurs peuvent également injecter des noyaux personnalisés en décorant des opérations, sans que le compilateur ne les modifie. Ensuite, AutoDeploy applique des passes d’optimisation automatiques : fusion d’opérations, sélection de noyaux performants, gestion du partage de poids (sharding) sur plusieurs GPU (avec prise en compte des indications Hugging Face), et intégration avec des outils comme CUDA Graphs pour les séquences de décodage à taille fixe. Il gère également automatiquement le cache de mémoire KV, la gestion des états et les mécanismes d’inférence avancés (surcharge du planificateur, pré-remplissage par tranches, décodage spéculatif), sans surcharger le développeur. Un exemple marquant est la mise en œuvre d’Nemotron 3 Nano, un modèle hybride à MoE. Alors qu’une optimisation manuelle aurait pris plusieurs semaines, AutoDeploy a permis un déploiement en quelques jours, atteignant des performances équivalentes à celles d’une version manuellement optimisée. Sur un GPU NVIDIA Blackwell DGX B200, il a atteint jusqu’à 350 tokens par seconde par utilisateur en mode latence et 13 000 tokens par seconde en mode haut débit. Un autre cas d’usage est Nemotron-Flash, un modèle hybride combinant attention softmax, attention linéaire (DeltaNet) et couches d’état d’espace. Grâce à AutoDeploy, ses couches ont pu être intégrées sans réécriture complète, en réutilisant des passes d’optimisation existantes. Ce modèle a été déployé en quelques jours et a surpassé Qwen2.5 3B Instruct dans des scénarios de charge élevée, démontrant que les architectures innovantes peuvent atteindre des performances de production rapidement. AutoDeploy est désormais disponible pour plus de 100 modèles textuels et offre un soutien précoce aux modèles vision-langage (VLM) et aux SSM. Il s’intègre parfaitement à l’écosystème TensorRT LLM, permettant une onboarding fluide et une évolution continue. Cette technologie marque une rupture vers une approche compilateur-centrée de l’optimisation d’inférence, réduisant la barrière d’entrée pour les nouvelles architectures et accélérant l’innovation. Évaluation et perspectives : Les experts du secteur soulignent que AutoDeploy représente une avancée majeure dans la démocratisation du déploiement performant des LLM. En déléguant les complexités d’optimisation à un système automatisé, il permet aux équipes de se concentrer sur l’innovation de modèle plutôt que sur l’ingénierie d’inférence. NVIDIA continue d’élargir le support et d’améliorer les passes de compilation, avec un engagement fort pour intégrer de nouveaux types de couches et améliorer les performances sur des architectures émergentes. Pour les développeurs, c’est une opportunité clé d’accélérer leur cycle de développement tout en maintenant des niveaux de performance élevés.

Liens associés

Liens associés

Liens associés

Au-delà De La Réalité Visuelle : Le Nouveau Système D’évaluation De Tsinghua WorldArena Révèle Le Déficit De Capacités Dans Les Modèles Du Monde Incarné

Au-delà De La Réalité Visuelle : Le Nouveau Système D’évaluation De Tsinghua WorldArena Révèle Le Déficit De Capacités Dans Les Modèles Du Monde Incarné

Command Palette

NVIDIA dévoile AutoDeploy : une révolution pour le déploiement rapide des modèles d’IA

Liens associés

Command Palette

NVIDIA dévoile AutoDeploy : une révolution pour le déploiement rapide des modèles d’IA

Liens associés

Command Palette

NVIDIA dévoile AutoDeploy : une révolution pour le déploiement rapide des modèles d’IA

Liens associés

Au-delà De La Réalité Visuelle : Le Nouveau Système D’évaluation De Tsinghua WorldArena Révèle Le Déficit De Capacités Dans Les Modèles Du Monde Incarné

Au-delà De La Réalité Visuelle : Le Nouveau Système D’évaluation De Tsinghua WorldArena Révèle Le Déficit De Capacités Dans Les Modèles Du Monde Incarné