F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden
F5-TTS: Stimmenklonen, Zwei-Personen-Dialog, Mehrtonmischung

Einführung in das Tutorial
该教程仅需 RTX 4090 即可启动。
Dieses Tutorial umfasst zwei Modelle zur Demo-Nutzung, nämlich F5-TTS und E2 TTS.
F5-TTS ist ein leistungsstarkes Text-to-Speech-System (TTS), das 2024 gemeinsam von der Shanghai Jiao Tong University, der Cambridge University und dem Geely Automobile Research Institute (Ningbo) Co., Ltd. als Open Source veröffentlicht wurde. Es basiert auf einer nicht-autoregressiven Generierungsmethode auf Basis von Stream Matching, kombiniert mit der Diffusion Transformer (DiT)-Technologie. Die relevanten Papierergebnisse sindF5-TTS: Ein Märchenerzähler, der mit Flow Matching flüssige und getreue Sprache vortäuschtDieses System kann durch Zero-Shot-Learning ohne zusätzliche Überwachung schnell natürliche, flüssige und originalgetreue Sprache zum Originaltext generieren. F5-TTS unterstützt die Synthese mehrerer Sprachen, einschließlich Chinesisch und Englisch, und ermöglicht eine effektive Sprachsynthese für lange Texte. Darüber hinaus verfügt F5-TTS über eine Emotionssteuerungsfunktion, die den emotionalen Ausdruck der synthetisierten Sprache an den Textinhalt anpasst, und unterstützt eine Geschwindigkeitskontrolle, sodass Benutzer die Wiedergabegeschwindigkeit der Sprache nach Bedarf anpassen können. Das System wurde anhand eines umfangreichen Datensatzes von 100.000 Stunden trainiert und zeigte hervorragende Leistung und Generalisierungsfähigkeiten. Zu den Hauptfunktionen von F5-TTS gehören Zero-Sample-Sprachklonen, Geschwindigkeitskontrolle, Kontrolle des emotionalen Ausdrucks, Synthese langer Texte und Mehrsprachenunterstützung. Seine technischen Prinzipien umfassen Flow Matching, Diffusion Transformer (DiT), Verbesserung der Textdarstellung mit ConvNeXt V2, Sway-Sampling-Strategie und End-to-End-Systemdesign. F5-TTS verfügt über ein breites Spektrum an Anwendungsszenarien, darunter Hörbücher, Sprachassistenten, Sprachenlernen, Nachrichtensendungen, Spielesynchronisierung usw. und bietet leistungsstarke Sprachsynthesefunktionen für verschiedene kommerzielle und nichtkommerzielle Zwecke.
E2 TTS, die Abkürzung für Embarrassingly Easy Text-to-Speech, ist ein fortschrittliches Text-to-Speech-System (TTS), das durch einen vereinfachten Prozess eine Natürlichkeit und Sprecherähnlichkeit auf menschlichem Niveau erreicht. Der Kern von E2 TTS liegt in seiner völlig nicht-autoregressiven Natur, was bedeutet, dass es die gesamte Sprachsequenz auf einmal generieren kann, ohne dass eine schrittweise Generierung erforderlich ist, wodurch die Generierungsgeschwindigkeit erheblich erhöht wird und gleichzeitig eine qualitativ hochwertige Sprachausgabe gewährleistet bleibt. Die relevanten Papierergebnisse sindE2 TTS: Peinlich einfaches, vollständig nicht-autoregressives Zero-Shot-TTS”, wurde von SLT 2024 angenommen. Im E2 TTS-Framework wird Texteingabe in eine Zeichenfolge mit Füllzeichen umgewandelt. Anschließend wird ein auf Stream-Matching basierender Mel-Spektrogramm-Generator für die Audio-Füllaufgabe trainiert. Im Gegensatz zu vielen früheren Arbeiten benötigt es keine zusätzlichen Komponenten (z. B. Dauermodelle, Graphem-Phonem-Übersetzung) oder komplexe Techniken (z. B. monotone Alignment-Suche). Trotz seiner Einfachheit erreicht E2 TTS modernste Zero-Shot-TTS-Funktionen, die mit früheren Arbeiten wie Voicebox und NaturalSpeech 3 vergleichbar sind oder diese übertreffen. Die Einfachheit von E2 TTS ermöglicht zudem Flexibilität bei der Eingabedarstellung.
该教程支持如下模型和功能:
2 个模型检查点:
- F5-TTS
- E2 TTS
3 个功能:
- 单人语音生成(Batched TTS): 根据上传的音频进行文本生成。
- 双人语音生成(Podcast Generation):根据双人音频模拟双人对话。
- 多种语音类型生成(Multiple Speech-Type Generation):可根据同一讲话人不同情绪下的音频,生成不同情绪的音频。
Schritte ausführen
Klicken Sie nach dem Starten des Containers auf die API-Adresse, um zur Weboberfläche zu gelangen

1. Gebündeltes TTS
Wählen Sie die TTS-Funktion aus, laden Sie die Audio- und Textaufforderungen nach Bedarf hoch und legen Sie bei Bedarf erweiterte Parameter fest.
- Audio: Laden Sie einen klaren, hochwertigen Audioclip einer einzelnen sprechenden Person hoch und das Modell imitiert den Audioclip zur Generierung.
- Textaufforderungswort: Der zu generierende Text.
Erweiterte Parameter
- Referenztext: Leer lassen, um das Referenzaudio automatisch zu transkribieren. Wenn Sie Text eingeben, wird die automatische Transkription überschrieben.
- Stille entfernen: Dieses Modell neigt dazu, Stille zu erzeugen, insbesondere bei längeren Audiodateien. Bei Bedarf können wir die Stille manuell entfernen. Bitte beachten Sie, dass es sich hierbei um eine experimentelle Funktion handelt und diese zu merkwürdigen Ergebnissen führen kann. Dies erhöht auch die Bauzeit.
- Benutzerdefinierte Worttrennung: Geben Sie die zu trennenden benutzerdefinierten Wörter durch Kommas getrennt ein. Lassen Sie das Feld leer, um die Standardliste zu verwenden.
- Geschwindigkeit: Steuern Sie die Geschwindigkeit der generierten Sprache
Wie in der Abbildung unten gezeigt


2. Podcast-Generierung
wählen Podcast-Generierung Funktion: Laden Sie Audio- und Textaufforderungen für mehrere Personen wie unten erforderlich hoch. Diese Funktion verwendet das Modell, um die Unterhaltung zwischen zwei Personen zu imitieren und erfordert die Namen und Audiodaten von zwei Personen.
- Audio: Laden Sie zwei klare, qualitativ hochwertige Sprachaudios separat hoch und das Modell imitiert das Audio zur Generierung.
- Referenztext: Standardmäßig leer, um das Referenzaudio automatisch zu transkribieren. Wenn Sie Text eingeben, wird die automatische Transkription überschrieben.
- Modell auswählen: Der Standardwert ist F5-TTS
Wie in der Abbildung unten gezeigt


3. Generierung mehrerer Sprachtypen
Wählen Sie die Funktion „Generierung mehrerer Sprachtypen“ und laden Sie wie unten erforderlich Audio- und Textaufforderungen mit unterschiedlichen Emotionen hoch. Diese Funktion verwendet das Modell, um Emotionen zu simulieren und Audio entsprechend verschiedener Emotionen zu generieren.
- Audio: Laden Sie mehrere klare, hochwertige Audioclips mit unterschiedlichen Emotionen hoch und das Modell imitiert den zu generierenden Ton.
- Referenztext: Standardmäßig leer, um das Referenzaudio automatisch zu transkribieren. Wenn Sie Text eingeben, wird die automatische Transkription überschrieben.
- Modell auswählen: Der Standardwert ist F5-TTS
Laden Sie beispielsweise fünf Audioclips hoch (Normal, Überrascht, Traurig, Wütend, Flüstern, Schreien), um Text zu generieren:
(Normal) Hallo, ich möchte bitte ein Sandwich bestellen. (Überrascht) Was soll das heißen, Sie haben kein Brot mehr? (Traurig) Ich wollte aber wirklich ein Sandwich … (Wütend) Weißt du was, verdammt noch mal, du und dein kleiner Laden, ihr seid ätzend! (Flüstern) Ich gehe jetzt einfach nach Hause und weine. (Schreien) Warum ich?!
So können Sie eine Rede mit unterschiedlichen Emotionen gestalten


Austausch und Diskussion
🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓
