HyperAIHyperAI

Command Palette

Search for a command to run...

Synthèse vocale neuronale avec un réseau de Transformers

Naihan Li; Shujie Liu; Yanqing Liu; Sheng Zhao; Ming Liu; Ming Zhou

Résumé

Bien que des méthodes de synthèse vocale neuronale de bout en bout (TTS) telles que Tacotron2 aient été proposées et atteignent des performances de pointe, elles souffrent encore de deux problèmes : 1) une faible efficacité lors de l'entraînement et de l'inférence ; 2) la difficulté à modéliser les dépendances longues avec les réseaux neuronaux récurrents (RNNs) actuels. Inspirés par le succès du réseau Transformer dans la traduction automatique neuronale (NMT), nous introduisons et adaptons le mécanisme d'attention multi-têtes pour remplacer les structures RNN et également le mécanisme d'attention original dans Tacotron2. Grâce à l'attention multi-têtes, les états cachés dans l'encodeur et le décodeur sont construits en parallèle, ce qui améliore l'efficacité de l'entraînement. Par ailleurs, tout couple d'entrées à des moments différents est connecté directement par le mécanisme d'attention, ce qui résout efficacement le problème des dépendances longues. En utilisant des séquences de phonèmes comme entrée, notre réseau TTS Transformer génère des mél-spectrogrammes, qui sont ensuite transformés en résultats audio finaux par un décodeur vocoder WaveNet. Des expériences ont été menées pour évaluer l'efficacité et les performances de notre nouveau réseau. En termes d'efficacité, notre réseau TTS Transformer peut accélérer l'entraînement environ 4,25 fois plus rapidement que Tacotron2. En termes de performance, des tests humains rigoureux montrent que notre modèle proposé atteint des performances de pointe (avec une avance de 0,048 sur Tacotron2) et se rapproche très près de la qualité humaine (4,39 contre 4,44 en MOS).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp