HyperAI

Dia-1.6B: Demo Zur Emotionalen Sprachsynthese

Bild
Bauen
Lizenz: MIT

1. Einführung in das Tutorial

Dia-1.6B ist ein Text-to-Speech-Modell, das vom Nari Labs-Team am 21. April 2025 veröffentlicht wurde. Es kann hochrealistische Gespräche direkt aus Textskripten generieren und unterstützt audiobasierte Emotions- und Intonationskontrolle. Darüber hinaus kann Dia-1.6B auch Geräusche der nonverbalen Kommunikation erzeugen, wie etwa Lachen, Husten, Räuspern usw., wodurch Gespräche natürlicher und lebendiger werden. Dieses Modell unterstützt nicht nur die Generierung von Dialogen mit mehreren Rollen, sondern kann auch Rollen durch Beschriftungen wie [S1] und [S2] unterscheiden, Dialoge mit mehreren Rollen in einer einzigen Aufnahme generieren und dabei einen natürlichen Rhythmus und emotionale Übergänge beibehalten. Dieses Projekt unterstützt auch das Hochladen eigener Audiobeispiele. Das Modell generiert auf der Grundlage der Samples ähnliche Stimmen, um ein Klonen von Stimmabdrücken ohne Samples zu erreichen.

Dieses Tutorial verwendet Ressourcen für eine einzelne RTX 4090-Karte und unterstützt derzeit nur die englische Generierung.

👉 Dieses Projekt bietet ein Modell für:

  • Durchmesser – 1,6B:  Es verfügt über ein Text-to-Speech-Modell mit 1,6 B-Parametern.

2. Projektbeispiele

2. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 1–2 Minuten und aktualisieren Sie die Seite.

2. Nachdem Sie die Webseite aufgerufen haben, können Sie ein Gespräch mit dem Modell beginnen

Parameterbeschreibung:

  • Max. neue Token: Steuert die Länge des generierten Audios.
  • CFG-Skala: Passen Sie den Grad an, in dem die Generierung den Eingabebedingungen entspricht.
  • Temperatur: Steuert die Zufälligkeit der generierten Ergebnisse.
  • Top P: Kontrollieren Sie die Vielfalt der Kandidatenauswahl.
  • CFG Filter Top K: Kombiniert mit der Top-K-Filterung von CFG, um Relevanz und Vielfalt auszugleichen.
  • Geschwindigkeitsfaktor: Passen Sie die Wiedergabegeschwindigkeit oder den generierten Rhythmus des generierten Audios an.

Anwendung

Geben Sie den generierten Text in „Eingabetext“ ein und verwenden Sie die Tags [S1] und [S2], um die Dialoge der Charaktere zu unterscheiden. Wenn im Referenzaudio zwei unterschiedliche Klangfarben vorhanden sind, können diese jeweils mit S1 (die erste Klangfarbe) und S2 (die zweite Klangfarbe) gekennzeichnet werden. Die Klangfarbe der Figur entspricht eins zu eins den beiden Klangfarben im Referenzaudio. Wenn im Referenzaudio ein Ton vorhanden ist, kann dieser als S1 (erster Ton) gekennzeichnet werden. 

Austausch und Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓