HyperAIHyperAI

Command Palette

Search for a command to run...

Console
il y a 17 heures

Nemotron 3 Nano : Modèle hybride Mamba-Transformer à mélanges d'experts ouvert et efficace pour le raisonnement agissant

NVIDIA

Nemotron 3 Nano : Modèle hybride Mamba-Transformer à mélanges d'experts ouvert et efficace pour le raisonnement agissant

Résumé

Nous présentons Nemotron 3 Nano 30B-A3B, un modèle linguistique hybride Mixture-of-Experts basé sur Mamba et Transformer. Nemotron 3 Nano a été préentraîné sur 25 billions de tokens textuels, incluant plus de 3 billions de tokens uniques nouveaux par rapport à Nemotron 2, puis soumis à une fine-tuning supervisée et à une apprentissage par renforcement à grande échelle dans des environnements diversifiés. Nemotron 3 Nano atteint une précision supérieure à celle de sa prédécesseur Nemotron 2 Nano tout en activant moins de la moitié des paramètres par passage avant. Il offre une throughput d'inférence pouvant atteindre 3,3 fois supérieure à celle de modèles open-source de taille comparable, tels que GPT-OSS 20B et Qwen3-30B-A3B-Thinking-2507, tout en étant également plus précis sur des benchmarks populaires. Nemotron 3 Nano démontre des capacités améliorées en matière d’agenticité, de raisonnement et de conversation, et prend en charge des longueurs de contexte allant jusqu’à 1 million de tokens. Nous mettons à disposition sur Hugging Face les versions préentraînées Nemotron 3 Nano 30B-A3B Base ainsi que les points de contrôle post-entraînés Nemotron 3 Nano 30B-A3B.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp