HyperAI

Déployer DeepSeek R1 7B À L'aide De vLLM

🔥 Déploiement ultra-rapide de DeepSeek-R1 7B ! vLLM + Open-WebUI vous aide à le faire en un clic !🚀

1. Introduction au tutoriel

DeepSeek-R1 est un modèle de langage efficace et léger lancé par DeepSeek en 2025, qui prend en charge plusieurs tâches telles que la génération de texte, le dialogue, la traduction et le résumé. Il adopte une technologie de distillation des connaissances, prenant en compte à la fois les exigences de haute performance et de faible puissance de calcul, et convient au déploiement rapide et aux applications pratiques.

⚡  Pourquoi choisir le déploiement vLLM ?

  • 🚀 Raisonnement ultra-rapide: PagedAttention + FlashInfer, laissez LLM voler !
  • 💾 Gestion intelligente de la mémoire: Traitez efficacement les textes longs et réduisez l'utilisation de la mémoire vidéo !
  • 🎯 Optimisation du noyau: Prend en charge GPTQ, AWQ, INT4/8 et d'autres quantifications, et maximise les performances !
  • 🌍 Compatible avec l'API OpenAI: Migration transparente, commencez dès maintenant !
  • 🔥 Prise en charge de plusieurs matériels:NVIDIA, AMD, Intel, TPU… courez où vous voulez !

💡 Open-WebUI facilite l'interaction !

  • 🌟 Gestion Web, prête à l'emploi !
  • 🎨 Interface intuitive, déploiement à faible seuil !
  • 🔗Prise en charge de plusieurs modèles, expérience unique !

Ce tutoriel utilise le modèle DeepSeek-R1-Distill-Qwen-7B comme démonstration, et les ressources de calcul utilisées sont une « carte RTX4090 unique ».

2. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web (si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est volumineux, veuillez patienter environ 2 minutes et réessayer.)

2. Après être entré sur la page Web, vous pouvez démarrer une conversation avec le modèle

Entrez votre numéro de compte : admin@123.com

Mot de passe : 123456

Avis:
1. Ce tutoriel prend en charge la « recherche en ligne ». Une fois cette fonction activée, la vitesse d'inférence ralentira, ce qui est normal.
2. L'inférence backend vLLM peut être visualisée dans /home/vllm.log

Déployer DeekSeek-R1 basé sur vllm

Paramètres de conversation courants

1. Température

  • Contrôle le caractère aléatoire de la sortie, généralement dans la plage de 0,0 à 2,0.
  • Valeur faible (par exemple 0,1):Plus certain, biaisé vers les mots courants.
  • Valeur élevée (par exemple 1,5):Contenu plus aléatoire, potentiellement plus créatif mais erratique.

2. Échantillonnage Top-k

  • Échantillonnez uniquement les k mots avec la probabilité la plus élevée et excluez les mots à faible probabilité.
  • k est petit (par exemple 10):Plus de certitude, moins d’aléatoire.
  • k est grand (par exemple 50):Plus de diversité, plus d'innovation.

3. Échantillonnage Top-p (échantillonnage du noyau, échantillonnage Top-p)

  • Sélectionnez l'ensemble de mots dont la probabilité cumulée atteint p et ne fixez pas la valeur de k.
  • Valeur faible (par exemple 0,3):Plus de certitude, moins d’aléatoire.
  • Valeur élevée (par exemple 0,9):Plus de diversité, une meilleure fluidité.

4. Pénalité de répétition

  • Contrôle le taux de répétition du texte, généralement compris entre 1,0 et 2,0.
  • Valeur élevée (par exemple 1,5):Réduisez les répétitions et améliorez la lisibilité.
  • Valeur faible (par exemple 1,0): Aucune pénalité, peut amener le modèle à répéter des mots et des phrases.

5. Max Tokens (durée de génération maximale)

  • Limitez le nombre maximal de jetons générés par le modèle pour éviter une sortie trop longue.
  • Gamme typique :50-4096 (selon le modèle spécifique).

Échange et discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓