HyperAIHyperAI
vor 2 Monaten

Tacotron: Auf dem Weg zur end-to-end Sprachsynthese

Yuxuan Wang; RJ Skerry-Ryan; Daisy Stanton; Yonghui Wu; Ron J. Weiss; Navdeep Jaitly; Zongheng Yang; Ying Xiao; Zhifeng Chen; Samy Bengio; Quoc Le; Yannis Agiomyrgiannakis; Rob Clark; Rif A. Saurous
Tacotron: Auf dem Weg zur end-to-end Sprachsynthese
Abstract

Ein Text-zu-Sprache-Synthesissystem besteht in der Regel aus mehreren Stufen, wie einem Textanalyse-Frontend, einem akustischen Modell und einem Audiosynthese-Modul. Die Entwicklung dieser Komponenten erfordert oft umfangreiche Fachkenntnisse und kann fragwürdige Designentscheidungen beinhalten. In dieser Arbeit stellen wir Tacotron vor, ein generatives End-zu-Ende-Text-zu-Sprache-Modell, das Sprache direkt aus Zeichen synthetisiert. Bei gegebenen <Text, Audio>-Paaren kann das Modell vollständig von Grund auf mit zufälliger Initialisierung trainiert werden. Wir präsentieren mehrere Schlüsseltechniken, die es ermöglichen, dass das Sequenz-zu-Sequenz-Framework für diese anspruchsvolle Aufgabe gut funktioniert. Tacotron erreicht eine subjektive 5-Stufen-Mean-Opinion-Score (MOS) von 3,82 bei amerikanischem Englisch und übertrifft ein parametrisches Produktionsystem hinsichtlich der Natürlichkeit. Zudem generiert Tacotron die Sprache auf Frame-Ebene, wodurch es erheblich schneller ist als autoregressive Methoden auf Sample-Ebene.