HyperAIHyperAI

Command Palette

Search for a command to run...

Glow-TTS: Ein generativer Fluss für Sprachsynthese über monotone Alignierungssuche

Jaehyeon Kim Sungwon Kim Jungil Kong Sungroh Yoon

Zusammenfassung

Kürzlich wurden Text-zu-Sprache (TTS)-Modelle wie FastSpeech und ParaNet vorgestellt, die Mel-Spektrogramme parallel aus Text generieren. Trotz dieses Vorteils können parallele TTS-Modelle nicht ohne Anleitung durch autoregressive TTS-Modelle trainiert werden, da sie externe Aligner benötigen. In dieser Arbeit stellen wir Glow-TTS vor, ein auf Flüssen basierendes generatives Modell für parallele TTS, das keinerlei externen Aligner benötigt. Durch die Kombination der Eigenschaften von Flüssen und dynamischer Programmierung sucht das vorgeschlagene Modell selbstständig die wahrscheinlichste monotone Alignment zwischen Text und der latenten Darstellung der Sprache. Wir zeigen, dass die Durchsetzung harter monotoner Alignments eine robuste TTS ermöglicht, die sich auch auf lange Äußerungen verallgemeinert, während die Verwendung generativer Flüsse eine schnelle, vielfältige und kontrollierbare Sprachsynthese erlaubt. Glow-TTS erreicht eine Geschwindigkeitssteigerung um eine Größenordnung gegenüber dem autoregressiven Modell Tacotron 2 bei der Synthese, wobei die Sprachqualität vergleichbar bleibt. Zudem zeigen wir, dass unser Modell problemlos auf ein Mehrsprachensystem erweitert werden kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Glow-TTS: Ein generativer Fluss für Sprachsynthese über monotone Alignierungssuche | Paper | HyperAI