HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

1. Einführung in das Tutorial

GitHub Stars

Dieses Tutorial umfasst zwei Modelle zur Demo-Nutzung, nämlich F5-TTS und E2 TTS.

F5-TTS ist ein leistungsstarkes Text-to-Speech-System (TTS), das 2024 gemeinsam von der Shanghai Jiao Tong University, der Cambridge University und dem Geely Automobile Research Institute (Ningbo) Co., Ltd. als Open Source veröffentlicht wurde. Es basiert auf einer nicht-autoregressiven Generierungsmethode auf Basis von Stream Matching, kombiniert mit der Diffusion Transformer (DiT)-Technologie. Die relevanten Papierergebnisse sindF5-TTS: Ein Märchenerzähler, der mit Flow Matching flüssige und getreue Sprache vortäuschtDieses System kann durch Zero-Shot-Learning ohne zusätzliche Überwachung schnell natürliche, flüssige und originalgetreue Sprache zum Originaltext generieren. F5-TTS unterstützt die Synthese mehrerer Sprachen, einschließlich Chinesisch und Englisch, und ermöglicht eine effektive Sprachsynthese für lange Texte. Darüber hinaus verfügt F5-TTS über eine Emotionssteuerungsfunktion, die den emotionalen Ausdruck der synthetisierten Sprache an den Textinhalt anpasst, und unterstützt eine Geschwindigkeitskontrolle, sodass Benutzer die Wiedergabegeschwindigkeit der Sprache nach Bedarf anpassen können. Das System wurde anhand eines umfangreichen Datensatzes von 100.000 Stunden trainiert und zeigte hervorragende Leistung und Generalisierungsfähigkeiten. Zu den Hauptfunktionen von F5-TTS gehören Zero-Sample-Sprachklonen, Geschwindigkeitskontrolle, Kontrolle des emotionalen Ausdrucks, Synthese langer Texte und Mehrsprachenunterstützung. Seine technischen Prinzipien umfassen Flow Matching, Diffusion Transformer (DiT), Verbesserung der Textdarstellung mit ConvNeXt V2, Sway-Sampling-Strategie und End-to-End-Systemdesign. F5-TTS verfügt über ein breites Spektrum an Anwendungsszenarien, darunter Hörbücher, Sprachassistenten, Sprachenlernen, Nachrichtensendungen, Spielesynchronisierung usw. und bietet leistungsstarke Sprachsynthesefunktionen für verschiedene kommerzielle und nichtkommerzielle Zwecke.

E2 TTS, die Abkürzung für Embarrassingly Easy Text-to-Speech, ist ein fortschrittliches Text-to-Speech-System (TTS), das durch einen vereinfachten Prozess eine Natürlichkeit und Sprecherähnlichkeit auf menschlichem Niveau erreicht. Der Kern von E2 TTS liegt in seiner völlig nicht-autoregressiven Natur, was bedeutet, dass es die gesamte Sprachsequenz auf einmal generieren kann, ohne dass eine schrittweise Generierung erforderlich ist, wodurch die Generierungsgeschwindigkeit erheblich erhöht wird und gleichzeitig eine qualitativ hochwertige Sprachausgabe gewährleistet bleibt. Die relevanten Papierergebnisse sindE2 TTS: Peinlich einfaches, vollständig nicht-autoregressives Zero-Shot-TTS”, wurde von SLT 2024 angenommen. Im E2 TTS-Framework wird Texteingabe in eine Zeichenfolge mit Füllzeichen umgewandelt. Anschließend wird ein auf Stream-Matching basierender Mel-Spektrogramm-Generator für die Audio-Füllaufgabe trainiert. Im Gegensatz zu vielen früheren Arbeiten benötigt es keine zusätzlichen Komponenten (z. B. Dauermodelle, Graphem-Phonem-Übersetzung) oder komplexe Techniken (z. B. monotone Alignment-Suche). Trotz seiner Einfachheit erreicht E2 TTS modernste Zero-Shot-TTS-Funktionen, die mit früheren Arbeiten wie Voicebox und NaturalSpeech 3 vergleichbar sind oder diese übertreffen. Die Einfachheit von E2 TTS ermöglicht zudem Flexibilität bei der Eingabedarstellung.

该教程支持如下模型和功能:

2 个模型检查点:

F5-TTS
E2 TTS

3 个功能:

单人语音生成(Batched TTS): 根据上传的音频进行文本生成。
双人语音生成(Podcast Generation):根据双人音频模拟双人对话。
多种语音类型生成(Multiple Speech-Type Generation):可根据同一讲话人不同情绪下的音频,生成不同情绪的音频。

Dieses Tutorial verwendet eine einzelne RTX 5090-Karte als Ressource.

2. Projektbeispiele

1. Gebündeltes TTS

2. Podcast-Generierung

3. Generierung mehrerer Sprachtypen

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Anwendungsschritte

Wird „Bad Gateway“ angezeigt, bedeutet dies, dass das Modell initialisiert wird. Da das Modell umfangreich ist, warten Sie bitte etwa 9 Minuten und aktualisieren Sie dann die Seite.

Bei Verwendung des Safari-Browsers wird der Ton möglicherweise nicht direkt abgespielt und muss vor der Wiedergabe heruntergeladen werden.

1. Gebündeltes TTS

  Parameterbeschreibung

  • Referenztext: Leer lassen, um das Referenzaudio automatisch zu transkribieren. Wenn Sie Text eingeben, wird die automatische Transkription überschrieben.
  • Stille entfernen: Dieses Modell neigt dazu, Stille zu erzeugen, insbesondere bei längeren Audiodateien. Bei Bedarf können wir die Stille manuell entfernen. Bitte beachten Sie, dass es sich hierbei um eine experimentelle Funktion handelt und diese zu merkwürdigen Ergebnissen führen kann. Dies erhöht auch die Bauzeit.
  • Benutzerdefinierte Worttrennung: Geben Sie die zu trennenden benutzerdefinierten Wörter durch Kommas getrennt ein. Lassen Sie das Feld leer, um die Standardliste zu verwenden.
  • Geschwindigkeit: Steuern Sie die Geschwindigkeit der generierten Sprache

2. Podcast-Generierung

3. Generierung mehrerer Sprachtypen

Zitationsinformationen

@article{chen-etal-2024-f5tts,
      title={F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching}, 
      author={Yushen Chen and Zhikang Niu and Ziyang Ma and Keqi Deng and Chunhui Wang and Jian Zhao and Kai Yu and Xie Chen},
      journal={arXiv preprint arXiv:2410.06885},
      year={2024},
}

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden | Notebooks | HyperAI