HyperAIHyperAI
vor 16 Tagen

Glow-TTS: Ein generativer Fluss für Sprachsynthese über monotone Alignierungssuche

Jaehyeon Kim, Sungwon Kim, Jungil Kong, Sungroh Yoon
Glow-TTS: Ein generativer Fluss für Sprachsynthese über monotone Alignierungssuche
Abstract

Kürzlich wurden Text-zu-Sprache (TTS)-Modelle wie FastSpeech und ParaNet vorgestellt, die Mel-Spektrogramme parallel aus Text generieren. Trotz dieses Vorteils können parallele TTS-Modelle nicht ohne Anleitung durch autoregressive TTS-Modelle trainiert werden, da sie externe Aligner benötigen. In dieser Arbeit stellen wir Glow-TTS vor, ein auf Flüssen basierendes generatives Modell für parallele TTS, das keinerlei externen Aligner benötigt. Durch die Kombination der Eigenschaften von Flüssen und dynamischer Programmierung sucht das vorgeschlagene Modell selbstständig die wahrscheinlichste monotone Alignment zwischen Text und der latenten Darstellung der Sprache. Wir zeigen, dass die Durchsetzung harter monotoner Alignments eine robuste TTS ermöglicht, die sich auch auf lange Äußerungen verallgemeinert, während die Verwendung generativer Flüsse eine schnelle, vielfältige und kontrollierbare Sprachsynthese erlaubt. Glow-TTS erreicht eine Geschwindigkeitssteigerung um eine Größenordnung gegenüber dem autoregressiven Modell Tacotron 2 bei der Synthese, wobei die Sprachqualität vergleichbar bleibt. Zudem zeigen wir, dass unser Modell problemlos auf ein Mehrsprachensystem erweitert werden kann.

Glow-TTS: Ein generativer Fluss für Sprachsynthese über monotone Alignierungssuche | Neueste Forschungsarbeiten | HyperAI