Naturale TTS-Synthese durch Konditionierung von WaveNet auf Mel-Spektrogramm-Vorhersagen

Dieses Papier beschreibt Tacotron 2, eine neuronale Netzwerkarchitektur zur direkten Sprachsynthese aus Text. Das System besteht aus einem rekurrenten Sequenz-zu-Sequenz-Feature-Vorhersagenetzwerk, das Zeicheneinbettungen in Mel-Skalenspektrogramme abbildet, gefolgt von einem modifizierten WaveNet-Modell, das als Vocoder dient und zeitdomänen Wellenformen aus diesen Spektrogrammen synthetisiert. Unser Modell erreicht einen durchschnittlichen Meinungsscore (MOS) von $4{,}53$, der sich mit einem MOS von $4{,}58$ für professionell aufgenommenen Sprache vergleichen lässt. Um unsere Designentscheidungen zu validieren, präsentieren wir Ablationsstudien wichtiger Komponenten unseres Systems und evaluieren den Einfluss der Verwendung von Mel-Spektrogrammen als Eingabe für WaveNet anstelle linguistischer Merkmale, Dauer und $F_0$-Merkmale. Wir demonstrieren zudem, dass die Verwendung einer kompakten akustischen Zwischendarstellung eine erhebliche Vereinfachung der WaveNet-Architektur ermöglicht.