il y a 2 mois

Synthèse vocale neuronale avec un réseau de Transformers

Naihan Li; Shujie Liu; Yanqing Liu; Sheng Zhao; Ming Liu; Ming Zhou

Résumé

Bien que des méthodes de synthèse vocale neuronale de bout en bout (TTS) telles que Tacotron2 aient été proposées et atteignent des performances de pointe, elles souffrent encore de deux problèmes : 1) une faible efficacité lors de l'entraînement et de l'inférence ; 2) la difficulté à modéliser les dépendances longues avec les réseaux neuronaux récurrents (RNNs) actuels. Inspirés par le succès du réseau Transformer dans la traduction automatique neuronale (NMT), nous introduisons et adaptons le mécanisme d'attention multi-têtes pour remplacer les structures RNN et également le mécanisme d'attention original dans Tacotron2. Grâce à l'attention multi-têtes, les états cachés dans l'encodeur et le décodeur sont construits en parallèle, ce qui améliore l'efficacité de l'entraînement. Par ailleurs, tout couple d'entrées à des moments différents est connecté directement par le mécanisme d'attention, ce qui résout efficacement le problème des dépendances longues. En utilisant des séquences de phonèmes comme entrée, notre réseau TTS Transformer génère des mél-spectrogrammes, qui sont ensuite transformés en résultats audio finaux par un décodeur vocoder WaveNet. Des expériences ont été menées pour évaluer l'efficacité et les performances de notre nouveau réseau. En termes d'efficacité, notre réseau TTS Transformer peut accélérer l'entraînement environ 4,25 fois plus rapidement que Tacotron2. En termes de performance, des tests humains rigoureux montrent que notre modèle proposé atteint des performances de pointe (avec une avance de 0,048 sur Tacotron2) et se rapproche très près de la qualité humaine (4,39 contre 4,44 en MOS).