HyperAIHyperAI
il y a 2 mois

Synthèse naturelle de la parole par conditionnement de WaveNet sur les prédictions du spectrogramme de mél

Jonathan Shen; Ruoming Pang; Ron J. Weiss; Mike Schuster; Navdeep Jaitly; Zongheng Yang; Zhifeng Chen; Yu Zhang; Yuxuan Wang; RJ Skerry-Ryan; Rif A. Saurous; Yannis Agiomyrgiannakis; Yonghui Wu
Synthèse naturelle de la parole par conditionnement de WaveNet sur les prédictions du spectrogramme de mél
Résumé

Ce document décrit Tacotron 2, une architecture de réseau neuronal pour la synthèse vocale directement à partir du texte. Le système est composé d'un réseau de séquence à séquence récurrent qui mappe les plongements de caractères (character embeddings) aux spectrogrammes à l'échelle mél, suivi par un modèle WaveNet modifié agissant comme un vocodeur pour synthétiser des formes d'onde dans le domaine temporel à partir de ces spectrogrammes. Notre modèle atteint une note moyenne d'opinion (MOS) de $4{,}53$, comparable à une MOS de $4{,}58$ pour des enregistrements professionnels. Pour valider nos choix de conception, nous présentons des études d'ablation des composants clés de notre système et évaluons l'impact de l'utilisation de spectrogrammes mél comme entrée pour WaveNet au lieu des caractéristiques linguistiques, durées et $F_0$. Nous démontrons également que l'utilisation d'une représentation acoustique compacte permet une simplification significative de l'architecture WaveNet.

Synthèse naturelle de la parole par conditionnement de WaveNet sur les prédictions du spectrogramme de mél | Articles de recherche récents | HyperAI