Stellen Sie DeepSeek R1 7B Mit vLLM Bereit
🔥 Ultraschnelle Bereitstellung von DeepSeek-R1 7B! vLLM + Open-WebUI hilft Ihnen, es mit einem Klick zu erledigen!🚀
1. Einführung in das Tutorial
DeepSeek-R1 ist ein effizientes und leichtgewichtiges Sprachmodell, das 2025 von DeepSeek eingeführt wurde und mehrere Aufgaben wie Textgenerierung, Dialog, Übersetzung und Zusammenfassung unterstützt. Es nutzt die Technologie der Wissensdestillation, berücksichtigt sowohl hohe Leistung als auch geringe Anforderungen an die Rechenleistung und eignet sich für eine schnelle Bereitstellung und praktische Anwendungen.
⚡ Warum sollten Sie sich für die vLLM-Bereitstellung entscheiden?
- 🚀 Ultraschnelles Denken: PagedAttention + FlashInfer, lass LLM fliegen!
- 💾 Intelligente Speicherverwaltung: Verarbeiten Sie lange Texte effizient und reduzieren Sie den Videospeicherverbrauch!
- 🎯 Optimierung des Kernels: Unterstützt GPTQ, AWQ, INT4/8 und andere Quantisierungen und maximiert die Leistung!
- 🌍 Kompatibel mit OpenAI API: Nahtlose Migration, legen Sie sofort los!
- 🔥 Unterstützung mehrerer Hardware: NVIDIA, AMD, Intel, TPU … laufen Sie, wo immer Sie wollen!
💡 Open-WebUI erleichtert die Interaktion!
- 🌟 Webbasiertes Management, sofort einsatzbereit!
- 🎨 Intuitive Benutzeroberfläche, einfache Bereitstellung!
- 🔗Unterstützung mehrerer Modelle, One-Stop-Erlebnis!
In diesem Tutorial wird das Modell DeepSeek-R1-Distill-Qwen-7B als Demonstration verwendet. Als Rechenressourcen werden „einzelne RTX4090-Karten“ verwendet.
2. Bedienungsschritte
1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen. (Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2 Minuten und versuchen Sie es erneut.)

2. Nachdem Sie die Webseite aufgerufen haben, können Sie ein Gespräch mit dem Modell beginnen
Geben Sie Ihre Kontonummer ein: admin@123.com
Passwort: 123456
Beachten:
1. Dieses Tutorial unterstützt die „Online-Suche“. Nachdem diese Funktion aktiviert wurde, verlangsamt sich die Inferenzgeschwindigkeit, was normal ist.
2. Die Backend-vLLM-Inferenz kann in /home/vllm.log angezeigt werden

Gängige Gesprächseinstellungen
1. Temperatur
- Steuert die Zufälligkeit der Ausgabe, normalerweise im Bereich von 0,0–2,0.
- Niedriger Wert (z. B. 0,1): Sicherer, tendiert zu gebräuchlichen Wörtern.
- Hoher Wert (z. B. 1,5): Zufälligerer, möglicherweise kreativerer, aber unregelmäßiger Inhalt.
2. Top-k-Stichprobenverfahren
- Nehmen Sie nur die Stichprobe der k Wörter mit der höchsten Wahrscheinlichkeit und schließen Sie Wörter mit geringer Wahrscheinlichkeit aus.
- k ist klein (z. B. 10): Mehr Sicherheit, weniger Zufälligkeit.
- k ist groß (z. B. 50): Mehr Vielfalt, mehr Innovation.
3. Top-p-Sampling (Nucleus-Sampling, Top-p-Sampling)
- Wählen Sie den Wortsatz aus, dessen kumulative Wahrscheinlichkeit p erreicht, und legen Sie den Wert von k nicht fest.
- Niedriger Wert (z. B. 0,3): Mehr Sicherheit, weniger Zufälligkeit.
- Hoher Wert (z. B. 0,9): Mehr Vielfalt, verbesserte Flüssigkeit.
4. Wiederholungsstrafe
- Steuert die Textwiederholungsrate, normalerweise zwischen 1,0 und 2,0.
- Hoher Wert (z. B. 1,5): Reduzieren Sie Wiederholungen und verbessern Sie die Lesbarkeit.
- Niedriger Wert (z. B. 1,0): Keine Strafe, kann dazu führen, dass das Modell Wörter und Sätze wiederholt.
5. Max Tokens (maximale Generierungslänge)
- Begrenzen Sie die maximale Anzahl der vom Modell generierten Token, um eine übermäßig lange Ausgabe zu vermeiden.
- Typischer Bereich:50-4096 (je nach Modell).
Austausch und Diskussion
🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓