Nemotron 3 Nano 4B : un modèle hybride pour l'IA locale
NVIDIA a officiellement lancé le Nemotron 3 Nano 4B, le modèle de langage le plus compact de sa nouvelle famille Nemotron 3. Conçu pour une efficacité maximale et une précision élevée sur des capacités ciblées, ce modèle hybride de 4 milliards de paramètres repose sur une architecture mêlant Mamba et Transformers. Il est optimisé pour fonctionner sur n'importe quelle plateforme dotée d'un GPU NVIDIA, y compris les puces grand public GeForce RTX, les unités de bord Jetson Thor et Orin Nano, ainsi que les systèmes DGX Spark. Cette compatibilité permet un déploiement local rapide, une meilleure confidentialité des données et une réduction significative des coûts d'inférence. Le Nemotron 3 Nano 4B est le premier modèle spécifiquement calibré pour le déploiement sur appareil, visant à alimenter des agents conversationnels locaux et des personnalités numériques. Son développement repose sur la technologie Nemotron Elastic, qui a permis de réduire le modèle parent Nemotron Nano 9B v2 vers le format 4B sans entraînement à partir de zéro. Cette méthode utilise un routage structuré pour déterminer avec précision quelles parties de l'architecture supprimer, optimisant ainsi le rapport entre taille et performance. Le processus comprend une compression guidée par le routage, suivie d'une distillation des connaissances en deux étapes pour récupérer la précision : d'abord sur un contexte court, puis sur un contexte étendu de 49 000 tokens pour améliorer les capacités de raisonnement. Après la compression, le modèle a subi un ajustement supervisé et un renforcement multi-environnements pour maîtriser le suivi d'instructions, l'utilisation d'outils et les tâches agentices, le tout sans nécessiter de réflexion explicite pour résoudre les tâches courantes. Pour répondre aux contraintes des appareils de bord, NVIDIA a implémenté des stratégies de quantification avancées. Le modèle est disponible en version FP8 et Q4_K_M (4 bits) via le format GGUF compatible avec Llama.cpp. Une quantification sélective a été appliquée pour maintenir les performances, en conservant certaines couches à une précision supérieure (BF16) tandis que le reste est quantifié en FP8. Ces optimisations ont permis une récupération de précision de 100 % par rapport au modèle original en précision brute (BF16). Les benchmarks réalisés sur une carte RTX 4070 montrent des performances remarquables. Sur un périphérique Jetson Orin Nano de 8 Go, la version Q4_K_M atteint un débit de 18 tokens par seconde, soit deux fois plus rapide que le modèle Nano 9B v2. De plus, la version FP8 offre une amélioration de 1,8 fois de la latence et du débit sur les systèmes DGX Spark et Jetson Thor. Ce modèle ouvre la voie à une intelligence artificielle locale performante pour les cas d'usage en robotique et en jeux vidéo, comme démontré par des tests sur des jeux de stratégie et d'aventure. Nemotron 3 Nano 4B est disponible en code ouvert, permettant à la communauté de personnaliser et d'affiner le modèle pour des domaines spécifiques. Il est compatible avec plusieurs moteurs d'inférence majeurs, incluant Transformers, vLLM et TRT-LLM. Des exemples d'utilisation et des instructions détaillées pour le déploiement sur Jetson sont accessibles via les dépôts Hugging Face et le site de la Jetson AI Lab. Les développeurs peuvent également intégrer le SDK d'inférence de jeux vidéo de NVIDIA pour accélérer les performances lors de l'exécution simultanée de charges de travail graphiques lourdes. Ce lancement marque une étape importante vers la démocratisation de l'IA générative sur des appareils aux ressources limitées.
