Command Palette
Search for a command to run...
Glow-TTS: Ein generativer Fluss für Sprachsynthese über monotone Alignierungssuche
Glow-TTS: Ein generativer Fluss für Sprachsynthese über monotone Alignierungssuche
Jaehyeon Kim Sungwon Kim Jungil Kong Sungroh Yoon
Zusammenfassung
Kürzlich wurden Text-zu-Sprache (TTS)-Modelle wie FastSpeech und ParaNet vorgestellt, die Mel-Spektrogramme parallel aus Text generieren. Trotz dieses Vorteils können parallele TTS-Modelle nicht ohne Anleitung durch autoregressive TTS-Modelle trainiert werden, da sie externe Aligner benötigen. In dieser Arbeit stellen wir Glow-TTS vor, ein auf Flüssen basierendes generatives Modell für parallele TTS, das keinerlei externen Aligner benötigt. Durch die Kombination der Eigenschaften von Flüssen und dynamischer Programmierung sucht das vorgeschlagene Modell selbstständig die wahrscheinlichste monotone Alignment zwischen Text und der latenten Darstellung der Sprache. Wir zeigen, dass die Durchsetzung harter monotoner Alignments eine robuste TTS ermöglicht, die sich auch auf lange Äußerungen verallgemeinert, während die Verwendung generativer Flüsse eine schnelle, vielfältige und kontrollierbare Sprachsynthese erlaubt. Glow-TTS erreicht eine Geschwindigkeitssteigerung um eine Größenordnung gegenüber dem autoregressiven Modell Tacotron 2 bei der Synthese, wobei die Sprachqualität vergleichbar bleibt. Zudem zeigen wir, dass unser Modell problemlos auf ein Mehrsprachensystem erweitert werden kann.