HyperAIHyperAI
vor 16 Tagen

Flowtron: ein autoregressives, auf Flüssen basierendes generatives Netzwerk für die Sprachsynthese aus Text

Rafael Valle, Kevin Shih, Ryan Prenger, Bryan Catanzaro
Flowtron: ein autoregressives, auf Flüssen basierendes generatives Netzwerk für die Sprachsynthese aus Text
Abstract

In diesem Paper stellen wir Flowtron vor: ein autoregressives, flussbasiertes generatives Netzwerk für die Sprachsynthese aus Text mit Kontrolle über Sprachvariation und Stilübertragung. Flowtron entnimmt Erkenntnisse aus IAF und überarbeitet Tacotron, um eine hochwertige und ausdrucksstarke Synthese von Mel-Spektrogrammen zu ermöglichen. Flowtron wird durch Maximierung der Wahrscheinlichkeit der Trainingsdaten optimiert, was den Trainingsprozess einfach und stabil macht. Das Modell lernt eine invertierbare Abbildung der Daten in einen latente Raum, der manipuliert werden kann, um zahlreiche Aspekte der Sprachsynthese zu steuern (Tonhöhe, Tonlage, Sprechgeschwindigkeit, Rhythmus, Akzent). Unsere durchschnittlichen Meinungsscores (MOS) zeigen, dass Flowtron die Leistungszahlen aktueller State-of-the-Art-TTS-Modelle hinsichtlich der Sprachqualität erreicht. Zusätzlich präsentieren wir Ergebnisse zur Kontrolle der Sprachvariation, zur Interpolation zwischen Samples sowie zur Stilübertragung zwischen Sprechern, die während des Trainings gesehen oder nicht gesehen wurden. Der Quellcode und vortrainierte Modelle werden öffentlich unter https://github.com/NVIDIA/flowtron zur Verfügung gestellt.

Flowtron: ein autoregressives, auf Flüssen basierendes generatives Netzwerk für die Sprachsynthese aus Text | Neueste Forschungsarbeiten | HyperAI