HyperAIHyperAI

Microsoft VibeVoice-1.5B Definiert Die Grenzen Der TTS-Technologie Neu

1. Einführung in das Tutorial

Bauen

VibeVoice-1.5B ist ein neues Text-to-Speech-Modell (TTS), das im August 2025 von Microsoft veröffentlicht wurde. Es generiert ausdrucksstarke, lange Konversations-Audios mit mehreren Sprechern, wie beispielsweise Podcasts. Das Modell nutzt innovative Technologie zur kontinuierlichen Sprach-Tokenisierung und ein Token-Diffusion-Framework der nächsten Generation, kombiniert mit einem Large Language Model (LLM), um lange Audiosequenzen effizient zu verarbeiten und gleichzeitig eine hohe Wiedergabetreue zu gewährleisten. VibeVoice kann bis zu 90 Minuten Sprache mit bis zu vier verschiedenen Sprechern synthetisieren, durchbricht damit die Grenzen herkömmlicher TTS-Systeme und bietet neue Möglichkeiten für natürliche Konversation und emotionalen Ausdruck.

Die in diesem Tutorial verwendeten Rechenressourcen sind eine einzelne RTX 4090-Karte.

2. Effektanzeige

3. Bedienungsschritte

1. Starten Sie den Container

2. Anwendungsschritte

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Spezifische Parameter:

  • Generierungsparameter
    • CFG-Skala: Passen Sie die Konsistenz zwischen generiertem Audio und eingegebenem Dialogtext an

Ergebnis

4. Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓