NVIDIA Nemotron Nano 2 : un modèle hybride Mamba-Transformer précis et efficace pour le raisonnement

Nous présentons Nemotron-Nano-9B-v2, un modèle hybride Mamba-Transformer conçu pour améliorer le débit des charges de travail de raisonnement tout en atteignant une précision de pointe par rapport à des modèles de taille similaire. Nemotron-Nano-9B-v2 repose sur l'architecture Nemotron-H, dans laquelle la majorité des couches d'attention auto-associative du modèle Transformer classique sont remplacées par des couches Mamba-2, permettant ainsi une accélération de l'inférence lors de la génération de traces de réflexion longues, nécessaires au raisonnement. Nous avons obtenu Nemotron-Nano-9B-v2 en pré-entraînant d'abord un modèle de 12 milliards de paramètres (Nemotron-Nano-12B-v2-Base) sur 20 billions de tokens, à l’aide d’une recette d’entraînement en FP8. Après alignement de Nemotron-Nano-12B-v2-Base, nous avons appliqué la stratégie Minitron afin de compresser et distiller le modèle, dans le but de permettre l’inférence sur jusqu’à 128 000 tokens sur une seule GPU NVIDIA A10G (22 Go de mémoire, précision bfloat16). Par rapport aux modèles de taille similaire existants (par exemple, Qwen3-8B), nous démontrons que Nemotron-Nano-9B-v2 atteint une précision équivalente ou supérieure sur les benchmarks de raisonnement, tout en offrant un débit d’inférence jusqu’à 6 fois plus élevé dans des scénarios de raisonnement tels que 8 000 tokens d’entrée et 16 000 tokens de sortie. Nous mettons désormais à disposition sur Hugging Face les points de contrôle de Nemotron-Nano-9B-v2, Nemotron-Nano-12B-v2-Base et Nemotron-Nano-9B-v2-Base, ainsi que la majorité de nos jeux de données pré-entraînement et post-entraînement.