HyperAIHyperAI

Command Palette

Search for a command to run...

Naturale TTS-Synthese durch Konditionierung von WaveNet auf Mel-Spektrogramm-Vorhersagen

Jonathan Shen¹, Ruoming Pang¹, Ron J. Weiss¹, Mike Schuster¹, Navdeep Jaitly¹, Zongheng Yang*², Zhifeng Chen¹, Yu Zhang¹, Yuxuan Wang¹, RJ Skerry-Ryan¹, Rif A. Saurous¹, Yannis Agiomyrgiannakis¹, and Yonghui Wu¹

Zusammenfassung

Dieses Papier beschreibt Tacotron 2, eine neuronale Netzwerkarchitektur zur direkten Sprachsynthese aus Text. Das System besteht aus einem rekurrenten Sequenz-zu-Sequenz-Feature-Vorhersagenetzwerk, das Zeicheneinbettungen in Mel-Skalenspektrogramme abbildet, gefolgt von einem modifizierten WaveNet-Modell, das als Vocoder dient und zeitdomänen Wellenformen aus diesen Spektrogrammen synthetisiert. Unser Modell erreicht einen durchschnittlichen Meinungsscore (MOS) von 4,534{,}534,53, der sich mit einem MOS von 4,584{,}584,58 für professionell aufgenommenen Sprache vergleichen lässt. Um unsere Designentscheidungen zu validieren, präsentieren wir Ablationsstudien wichtiger Komponenten unseres Systems und evaluieren den Einfluss der Verwendung von Mel-Spektrogrammen als Eingabe für WaveNet anstelle linguistischer Merkmale, Dauer und F0F_0F0-Merkmale. Wir demonstrieren zudem, dass die Verwendung einer kompakten akustischen Zwischendarstellung eine erhebliche Vereinfachung der WaveNet-Architektur ermöglicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Naturale TTS-Synthese durch Konditionierung von WaveNet auf Mel-Spektrogramm-Vorhersagen | Paper | HyperAI