7x Plus de Vitesse pour les Modèles IA Générative sur Jetson AGX Thor grâce à l’Optimisation Logicielle et au Décodage Spéculatif
NVIDIA dévoile une amélioration spectaculaire des performances des modèles d’intelligence artificielle générative (Gen AI) sur sa plateforme Edge Jetson AGX Thor, grâce à une optimisation logicielle continue. Lancé en août 2025, le Jetson AGX Thor affiche désormais une accélération de 7x dans le débit de sortie des tokens pour des modèles comme Llama 3.3 70B et DeepSeek R1 70B, contre une hausse initiale de 5x par rapport au Jetson AGX Orin. Ces gains sont principalement dus à des mises à jour logicielles, notamment la dernière version du conteneur vLLM, qui permet une amélioration de 3,5x en seulement un mois, passant de 41,5 à 122,6 tokens/sec pour Llama 3.3 70B dans des conditions standard (longueur de séquence 2048, sortie 128, concurrence maximale 8, mode de puissance MAXN). Un autre levier clé est la prise en charge de la décodage spéculatif, notamment via le modèle Eagle 3, qui permet d’atteindre 88,62 tokens/sec sur Llama 3.3 70B — soit une accélération de 7x par rapport au lancement. Cette technique utilise un modèle « draft » rapide pour prédire plusieurs tokens, que le modèle principal (« target ») valide en une seule passe, réduisant ainsi la latence sans compromettre la qualité. Le Jetson AGX Thor bénéficie également d’un support immédiat (day 0) pour les derniers modèles, comme gpt-oss sur llamacpp/ollama et les modèles NVIDIA Nemotron, permettant aux développeurs de tester les innovations dès leur sortie. La plateforme prend en charge les formats de quantification avancés, notamment le NVFP4 issu de l’architecture Blackwell, ainsi que le W4A16 (4 bits pour les poids, 16 bits pour les activations), qui permet de charger des modèles de plus de 175 milliards de paramètres directement sur le device, avec un faible impact sur la mémoire. Pour maximiser les performances, NVIDIA recommande de commencer par le W4A16 pour une meilleure vitesse et réduction de la taille mémoire. Si la précision est insuffisante pour des tâches complexes (raisonnement, génération de code), on peut passer à FP8, qui offre un excellent compromis entre performance et qualité. L’ensemble de ces techniques peut être combiné efficacement : par exemple, un modèle quantifié W4A16 servi via vLLM avec décodage spéculatif Eagle 3 permet d’obtenir une accélération de 2,5x par rapport à une configuration standard. NVIDIA simplifie la mise en œuvre avec un conteneur vLLM dédié, mis à jour mensuellement, et un guide pratique pour le benchmarking sur Jetson AI Lab. Le processus recommandé inclut : établir une base de qualité (FP16 ou FP8), quantifier progressivement, puis valider les performances avec des données réelles. Cette approche permet de trouver le meilleur équilibre entre précision, latence et efficacité. En résumé, le Jetson AGX Thor, combiné à des optimisations logicielles et des techniques avancées comme la quantification et le décodage spéculatif, devient une solution incontournable pour déployer des modèles Gen AI performants, intelligents et rapides directement au bord du réseau. Les développeurs peuvent désormais expérimenter les derniers modèles dès leur sortie, avec un gain de performance significatif, tout en restant maîtres de leur compromis qualité/performance.
