HyperAIHyperAI
vor 2 Monaten

Naturale TTS-Synthese durch Konditionierung von WaveNet auf Mel-Spektrogramm-Vorhersagen

Jonathan Shen; Ruoming Pang; Ron J. Weiss; Mike Schuster; Navdeep Jaitly; Zongheng Yang; Zhifeng Chen; Yu Zhang; Yuxuan Wang; RJ Skerry-Ryan; Rif A. Saurous; Yannis Agiomyrgiannakis; Yonghui Wu
Naturale TTS-Synthese durch Konditionierung von WaveNet auf Mel-Spektrogramm-Vorhersagen
Abstract

Dieses Papier beschreibt Tacotron 2, eine neuronale Netzwerkarchitektur zur direkten Sprachsynthese aus Text. Das System besteht aus einem rekurrenten Sequenz-zu-Sequenz-Feature-Vorhersagenetzwerk, das Zeicheneinbettungen in Mel-Skalenspektrogramme abbildet, gefolgt von einem modifizierten WaveNet-Modell, das als Vocoder dient und zeitdomänen Wellenformen aus diesen Spektrogrammen synthetisiert. Unser Modell erreicht einen durchschnittlichen Meinungsscore (MOS) von $4{,}53$, der sich mit einem MOS von $4{,}58$ für professionell aufgenommenen Sprache vergleichen lässt. Um unsere Designentscheidungen zu validieren, präsentieren wir Ablationsstudien wichtiger Komponenten unseres Systems und evaluieren den Einfluss der Verwendung von Mel-Spektrogrammen als Eingabe für WaveNet anstelle linguistischer Merkmale, Dauer und $F_0$-Merkmale. Wir demonstrieren zudem, dass die Verwendung einer kompakten akustischen Zwischendarstellung eine erhebliche Vereinfachung der WaveNet-Architektur ermöglicht.