HyperAIHyperAI

Command Palette

Search for a command to run...

Synthèse naturelle de la parole par conditionnement de WaveNet sur les prédictions du spectrogramme de mél

Jonathan Shen¹, Ruoming Pang¹, Ron J. Weiss¹, Mike Schuster¹, Navdeep Jaitly¹, Zongheng Yang*², Zhifeng Chen¹, Yu Zhang¹, Yuxuan Wang¹, RJ Skerry-Ryan¹, Rif A. Saurous¹, Yannis Agiomyrgiannakis¹, and Yonghui Wu¹

Résumé

Ce document décrit Tacotron 2, une architecture de réseau neuronal pour la synthèse vocale directement à partir du texte. Le système est composé d'un réseau de séquence à séquence récurrent qui mappe les plongements de caractères (character embeddings) aux spectrogrammes à l'échelle mél, suivi par un modèle WaveNet modifié agissant comme un vocodeur pour synthétiser des formes d'onde dans le domaine temporel à partir de ces spectrogrammes. Notre modèle atteint une note moyenne d'opinion (MOS) de 4,534{,}534,53, comparable à une MOS de 4,584{,}584,58 pour des enregistrements professionnels. Pour valider nos choix de conception, nous présentons des études d'ablation des composants clés de notre système et évaluons l'impact de l'utilisation de spectrogrammes mél comme entrée pour WaveNet au lieu des caractéristiques linguistiques, durées et F0F_0F0. Nous démontrons également que l'utilisation d'une représentation acoustique compacte permet une simplification significative de l'architecture WaveNet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp