HyperAI

Zusammenfassung

Ein Text-zu-Sprache-Synthesissystem besteht in der Regel aus mehreren Stufen, wie einem Textanalyse-Frontend, einem akustischen Modell und einem Audiosynthese-Modul. Die Entwicklung dieser Komponenten erfordert oft umfangreiche Fachkenntnisse und kann fragwürdige Designentscheidungen beinhalten. In dieser Arbeit stellen wir Tacotron vor, ein generatives End-zu-Ende-Text-zu-Sprache-Modell, das Sprache direkt aus Zeichen synthetisiert. Bei gegebenen <Text, Audio>-Paaren kann das Modell vollständig von Grund auf mit zufälliger Initialisierung trainiert werden. Wir präsentieren mehrere Schlüsseltechniken, die es ermöglichen, dass das Sequenz-zu-Sequenz-Framework für diese anspruchsvolle Aufgabe gut funktioniert. Tacotron erreicht eine subjektive 5-Stufen-Mean-Opinion-Score (MOS) von 3,82 bei amerikanischem Englisch und übertrifft ein parametrisches Produktionsystem hinsichtlich der Natürlichkeit. Zudem generiert Tacotron die Sprache auf Frame-Ebene, wodurch es erheblich schneller ist als autoregressive Methoden auf Sample-Ebene.

Zusammenfassung

Yuxuan Wang; RJ Skerry-Ryan; Daisy Stanton; Yonghui Wu; Ron J. Weiss; Navdeep Jaitly; Zongheng Yang; Ying Xiao; Zhifeng Chen; Samy Bengio; Quoc Le; Yannis Agiomyrgiannakis; Rob Clark; Rif A. Saurous

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Yuxuan Wang; RJ Skerry-Ryan; Daisy Stanton; Yonghui Wu; Ron J. Weiss; Navdeep Jaitly; Zongheng Yang; Ying Xiao; Zhifeng Chen; Samy Bengio; Quoc Le; Yannis Agiomyrgiannakis; Rob Clark; Rif A. Saurous

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Yuxuan Wang; RJ Skerry-Ryan; Daisy Stanton; Yonghui Wu; Ron J. Weiss; Navdeep Jaitly; Zongheng Yang; Ying Xiao; Zhifeng Chen; Samy Bengio; Quoc Le; Yannis Agiomyrgiannakis; Rob Clark; Rif A. Saurous

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Tacotron: Auf dem Weg zur end-to-end Sprachsynthese

Yuxuan Wang; RJ Skerry-Ryan; Daisy Stanton; Yonghui Wu; Ron J. Weiss; Navdeep Jaitly; Zongheng Yang; Ying Xiao; Zhifeng Chen; Samy Bengio; Quoc Le; Yannis Agiomyrgiannakis; Rob Clark; Rif A. Saurous

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Tacotron: Auf dem Weg zur end-to-end Sprachsynthese

Yuxuan Wang; RJ Skerry-Ryan; Daisy Stanton; Yonghui Wu; Ron J. Weiss; Navdeep Jaitly; Zongheng Yang; Ying Xiao; Zhifeng Chen; Samy Bengio; Quoc Le; Yannis Agiomyrgiannakis; Rob Clark; Rif A. Saurous

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Tacotron: Auf dem Weg zur end-to-end Sprachsynthese

Yuxuan Wang; RJ Skerry-Ryan; Daisy Stanton; Yonghui Wu; Ron J. Weiss; Navdeep Jaitly; Zongheng Yang; Ying Xiao; Zhifeng Chen; Samy Bengio; Quoc Le; Yannis Agiomyrgiannakis; Rob Clark; Rif A. Saurous

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters