Synthèse naturelle de la parole par conditionnement de WaveNet sur les prédictions du spectrogramme de mél

Ce document décrit Tacotron 2, une architecture de réseau neuronal pour la synthèse vocale directement à partir du texte. Le système est composé d'un réseau de séquence à séquence récurrent qui mappe les plongements de caractères (character embeddings) aux spectrogrammes à l'échelle mél, suivi par un modèle WaveNet modifié agissant comme un vocodeur pour synthétiser des formes d'onde dans le domaine temporel à partir de ces spectrogrammes. Notre modèle atteint une note moyenne d'opinion (MOS) de $4{,}53$, comparable à une MOS de $4{,}58$ pour des enregistrements professionnels. Pour valider nos choix de conception, nous présentons des études d'ablation des composants clés de notre système et évaluons l'impact de l'utilisation de spectrogrammes mél comme entrée pour WaveNet au lieu des caractéristiques linguistiques, durées et $F_0$. Nous démontrons également que l'utilisation d'une représentation acoustique compacte permet une simplification significative de l'architecture WaveNet.