HyperAIHyperAI

Déploiement vLLM + Open WebUI De NVIDIA-Nemotron-Nano-9B-v2

1. Introduction au tutoriel

NVIDIA-Nemotron-Nano-9B-v2 est un modèle de langage léger et volumineux lancé par l'équipe NVIDIA le 19 août 2025. Version optimisée pour l'architecture hybride de la série Nemotron, ce modèle combine de manière innovante le traitement efficace des séquences longues de Mamba avec les puissantes capacités de modélisation sémantique de Transformer, permettant la prise en charge de contextes ultra-longs de 128 000 avec seulement 9 milliards (9 B) de paramètres. Son efficacité d'inférence et ses performances sur les périphériques de calcul de pointe (tels que les GPU RTX 4090) sont comparables à celles des modèles de pointe de même échelle de paramètres, marquant une avancée majeure dans le domaine du déploiement léger et de la compréhension de textes longs par les modèles de langage volumineux. Les résultats de l'article sont les suivants :NVIDIA Nemotron Nano 2 : un modèle de raisonnement hybride Mamba-Transformer précis et efficace".

Ce tutoriel utilise une seule carte RTX A6000 comme ressource.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Après être entré sur la page Web, vous pouvez démarrer une conversation avec le modèle

Si « Modèle » n'est pas affiché, cela signifie que le modèle est en cours d'initialisation. Le modèle étant volumineux, veuillez patienter 2 à 3 minutes avant d'actualiser la page.

Comment utiliser

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@misc{nvidia2025nvidianemotronnano2,
      title={NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model},
      author={NVIDIA},
      year={2025},
      eprint={2508.14444},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2508.14444},
}

Déploiement vLLM + Open WebUI De NVIDIA-Nemotron-Nano-9B-v2 | Tutoriels | HyperAI