HyperAI

Déploiement En Un Clic De DeepSeek-R1-70B

1. Introduction au tutoriel

DeepSeek-R1-Distill-Llama-70B est un modèle de langage open source à grande échelle lancé par DeepSeek en 2025, avec une échelle de paramètres allant jusqu'à 70 milliards. Il est formé sur la base de Llama3.3-70B-Instruct et utilise l'apprentissage par renforcement et la technologie de distillation pour améliorer les performances de raisonnement. Il hérite non seulement des avantages des modèles de la série Llama, mais optimise également davantage la capacité de raisonnement sur cette base, en particulier dans les tâches de mathématiques, de code et de raisonnement logique. En tant que version hautes performances de la série DeepSeek, elle obtient de bons résultats dans plusieurs benchmarks. De plus, ce modèle est un modèle amélioré par inférence fourni par DeepSeek AI, qui prend en charge plusieurs scénarios d'application, tels que les appareils mobiles et l'informatique de pointe, les services d'inférence en ligne, etc., pour améliorer la vitesse de réponse et réduire les coûts d'exploitation. Il possède des capacités de raisonnement et de prise de décision très puissantes. Dans les domaines des assistants d'IA avancés, de l'analyse de la recherche scientifique, etc., il peut fournir des résultats d'analyse extrêmement professionnels et approfondis. Par exemple, dans la recherche médicale, la version 70B peut analyser de grandes quantités de données médicales et fournir une référence précieuse pour la recherche sur les maladies.

本教程使用 Ollama + Open WebUI 部署 DeepSeek-R1-Distill-Qwen-70B 作为演示,算力资源采用「单卡 A6000」。

2. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web (si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est volumineux, veuillez patienter environ 5 minutes et réessayer.) 2. Après avoir accédé à la page Web, vous pouvez démarrer une conversation avec le modèle !

2. Après être entré sur la page Web, vous pouvez démarrer une conversation avec le modèle

Ollama + Déploiement WebUI ouvert DeekSeek-R1-70B

Paramètres de conversation courants

1. Température

  • Contrôle le caractère aléatoire de la sortie, généralement dans la plage de 0.0-2.0  entre.
  • Valeur faible (par exemple 0,1):Plus certain, biaisé vers les mots courants.
  • Valeur élevée (par exemple 1,5):Contenu plus aléatoire, potentiellement plus créatif mais erratique.

2. Échantillonnage Top-k

  • Uniquement à partir de  Le k avec la probabilité la plus élevée  Échantillonnage en mots, excluant les mots à faible probabilité.
  • k est petit (par exemple 10):Plus de certitude, moins d’aléatoire.
  • k est grand (par exemple 50):Plus de diversité, plus d'innovation.

3. Échantillonnage Top-p (échantillonnage du noyau, échantillonnage Top-p)

  • choisirL'ensemble de mots avec une probabilité cumulative atteignant p, la valeur k n'est pas fixe.
  • Valeur faible (par exemple 0,3):Plus de certitude, moins d’aléatoire.
  • Valeur élevée (par exemple 0,9):Plus de diversité, une meilleure fluidité.

4. Pénalité de répétition

  • Contrôle la répétition du texte, généralement en 1.0-2.0  entre.
  • Valeur élevée (par exemple 1,5):Réduisez les répétitions et améliorez la lisibilité.
  • Valeur faible (par exemple 1,0): Aucune pénalité, peut amener le modèle à répéter des mots et des phrases.

5. Max Tokens (durée de génération maximale)

  • Modèle de restrictionNombre maximum de jetons générés, pour éviter une sortie trop longue.
  • Gamme typique :50-4096(Dépend du modèle spécifique).

Échange et discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓