1. Einführung in das Tutorial

Dia2-TTS ist ein Echtzeit-Sprachsynthesedienst, der auf dem groß angelegten Sprachgenerierungsmodell Dia2 (Dia2-2B) basiert und im November 2025 vom nari-labs-Team veröffentlicht wurde. Er unterstützt die Eingabe von Dialogskripten mit mehreren Gesprächsrunden, Sprachansagen mit doppelter Funktion (Prefix Voice) und die Steuerung des Samplings über mehrere Parameter. Über Grado bietet er eine vollständig webbasierte, interaktive Benutzeroberfläche für die hochwertige Sprachsynthese von Konversationen. Dia2-TTS kann kontinuierliche Dialogskripte mit mehreren Gesprächsrunden direkt verarbeiten und generiert so natürliche, kohärente und konsistente Sprache in hoher Qualität. Dies macht ihn ideal für Anwendungen wie virtuellen Kundenservice, Sprachassistenten, KI-Synchronisation und die Erstellung von Kurzfilmen.

Kernfunktionen:

Mehrrunden-Dialog-SprachsyntheseUnterstützt fortlaufende, mehrteilige Dialoge zwischen zwei Charakteren in S1/S2.
vom Stimmpräfix gesteuerte KlangfarbeDie Konsistenz der Stimme einer Figur lässt sich durch Prefix Voice steuern.
Doppeltes ProbenahmesystemDie Parameter für die Text- und Audioabtastung sind unabhängig voneinander steuerbar.
Kontrollierbare Erzeugung von CFGUnterstützt die CFG-Skalenanpassung der Gesamterzeugungsintensität.
Zeitstempelausgerichtete AusgabeZeitstempel auf Wortebene erleichtern die Untertitelung und Bearbeitung in der Nachbearbeitung.
webbasierte InteraktionOnline-Inferenz mit einem Klick basierend auf Grado.

Dieses Tutorial verwendet Grado zur Bereitstellung des Echtzeit-Sprachsynthesedienstes Dia2-TTS. Als Rechenressourcen dient „RTX_5090“, das die Generierung von mehrstufigen Dialogen flüssig ausführen kann. Aktuell werden nur englische Dialoge generiert.

2. Effektanzeige

Dia2-TTS kann in praktischen Anwendungen Folgendes erreichen:

Mehrrunden-Dialog-SprachsyntheseUnterstützt die Generierung kontinuierlicher, natürlicher Dialoge mit mehreren Gesprächsrunden.
Äußerst natürliche SprachausgabeFlüssige Sprache, natürliche Pausen und ausgeglichene Emotionen.
Beibehaltung der CharakterstimmeBeibehaltung eines gleichbleibenden Stimmklangs auf der Grundlage von Stimmpräfixen
Sprachausgabe mit ZeitstempelEs kann zur Untertitelgenerierung, zur Lippensynchronisation von Animationen und zur sekundären Bearbeitung verwendet werden.
Ausgabe der Log-Visualisierung: Den Denkprozess und den Generierungszustand vollständig demonstrieren.

3. Bedienungsschritte

1. Starten Sie den Container

Klicken Sie nach dem Starten des Containers auf die API-Adresse, um zur Weboberfläche zu gelangen

2. Erste Schritte

Wird „Bad Gateway“ angezeigt, bedeutet dies, dass das Modell initialisiert wird. Bitte warten Sie 1–2 Minuten und aktualisieren Sie die Seite.

Bei Verwendung des Safari-Browsers wird der Ton möglicherweise nicht direkt abgespielt und muss vor der Wiedergabe heruntergeladen werden.

Parameterbeschreibung

Gesamte Sprachsteuerung
- CFG-Skala: Steuert die Gesamtstärke der Text- und Sprachgenerierung.
Einstellungen für die Textabtastung
- Texttemperatur: Steuert die Zufälligkeit der Textgenerierung.
- Text Top-K: Kontrolle des Bereichs der Textstichprobenkandidaten
Audio-Sampling-Einstellungen
- Audiotemperatur: Steuert die Zufälligkeit der Audioerzeugung.
- Audio Top-K: Steuert den Kandidatenbereich der Audio-Samples
Sprachpräfixsteuerung
- Präfix beibehalten: Gibt an, ob die mit dem Präfix versehene Aussprache in der endgültigen Ausgabe beibehalten werden soll.

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Notebook-Übersicht

Stufe

Einsteiger

Thema

Audio Generative KI

OmniVoice: Unterstützt Hochwertige Text-to-Speech-Funktionen in Über 600 Sprachen

vor 2 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor 7 Monaten

1. Einführung in das Tutorial

Kernfunktionen:

Mehrrunden-Dialog-SprachsyntheseUnterstützt fortlaufende, mehrteilige Dialoge zwischen zwei Charakteren in S1/S2.
vom Stimmpräfix gesteuerte KlangfarbeDie Konsistenz der Stimme einer Figur lässt sich durch Prefix Voice steuern.
Doppeltes ProbenahmesystemDie Parameter für die Text- und Audioabtastung sind unabhängig voneinander steuerbar.
Kontrollierbare Erzeugung von CFGUnterstützt die CFG-Skalenanpassung der Gesamterzeugungsintensität.
Zeitstempelausgerichtete AusgabeZeitstempel auf Wortebene erleichtern die Untertitelung und Bearbeitung in der Nachbearbeitung.
webbasierte InteraktionOnline-Inferenz mit einem Klick basierend auf Grado.

Dieses Tutorial verwendet Grado zur Bereitstellung des Echtzeit-Sprachsynthesedienstes Dia2-TTS. Als Rechenressourcen dient „RTX_5090“, das die Generierung von mehrstufigen Dialogen flüssig ausführen kann. Aktuell werden nur englische Dialoge generiert.

2. Effektanzeige

Dia2-TTS kann in praktischen Anwendungen Folgendes erreichen:

Mehrrunden-Dialog-SprachsyntheseUnterstützt die Generierung kontinuierlicher, natürlicher Dialoge mit mehreren Gesprächsrunden.
Äußerst natürliche SprachausgabeFlüssige Sprache, natürliche Pausen und ausgeglichene Emotionen.
Beibehaltung der CharakterstimmeBeibehaltung eines gleichbleibenden Stimmklangs auf der Grundlage von Stimmpräfixen
Sprachausgabe mit ZeitstempelEs kann zur Untertitelgenerierung, zur Lippensynchronisation von Animationen und zur sekundären Bearbeitung verwendet werden.
Ausgabe der Log-Visualisierung: Den Denkprozess und den Generierungszustand vollständig demonstrieren.