HyperAIHyperAI

Command Palette

Search for a command to run...

Flowtron: ein autoregressives, auf Flüssen basierendes generatives Netzwerk für die Sprachsynthese aus Text

Rafael Valle Kevin Shih Ryan Prenger Bryan Catanzaro

Zusammenfassung

In diesem Paper stellen wir Flowtron vor: ein autoregressives, flussbasiertes generatives Netzwerk für die Sprachsynthese aus Text mit Kontrolle über Sprachvariation und Stilübertragung. Flowtron entnimmt Erkenntnisse aus IAF und überarbeitet Tacotron, um eine hochwertige und ausdrucksstarke Synthese von Mel-Spektrogrammen zu ermöglichen. Flowtron wird durch Maximierung der Wahrscheinlichkeit der Trainingsdaten optimiert, was den Trainingsprozess einfach und stabil macht. Das Modell lernt eine invertierbare Abbildung der Daten in einen latente Raum, der manipuliert werden kann, um zahlreiche Aspekte der Sprachsynthese zu steuern (Tonhöhe, Tonlage, Sprechgeschwindigkeit, Rhythmus, Akzent). Unsere durchschnittlichen Meinungsscores (MOS) zeigen, dass Flowtron die Leistungszahlen aktueller State-of-the-Art-TTS-Modelle hinsichtlich der Sprachqualität erreicht. Zusätzlich präsentieren wir Ergebnisse zur Kontrolle der Sprachvariation, zur Interpolation zwischen Samples sowie zur Stilübertragung zwischen Sprechern, die während des Trainings gesehen oder nicht gesehen wurden. Der Quellcode und vortrainierte Modelle werden öffentlich unter https://github.com/NVIDIA/flowtron zur Verfügung gestellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp