HyperAIHyperAI

Command Palette

Search for a command to run...

Tacotron : Vers la synthèse vocale de bout en bout

Yuxuan Wang; RJ Skerry-Ryan; Daisy Stanton; Yonghui Wu; Ron J. Weiss; Navdeep Jaitly; Zongheng Yang; Ying Xiao; Zhifeng Chen; Samy Bengio; Quoc Le; Yannis Agiomyrgiannakis; Rob Clark; Rif A. Saurous

Résumé

Un système de synthèse vocale à partir du texte (text-to-speech) typiquement comprend plusieurs étapes, telles qu'un front-end d'analyse textuelle, un modèle acoustique et un module de synthèse audio. La construction de ces composants nécessite souvent une expertise approfondie dans le domaine et peut comporter des choix de conception fragiles. Dans cet article, nous présentons Tacotron, un modèle génératif de synthèse vocale à partir du texte qui synthétise directement la parole à partir des caractères. Étant donné des paires <texte, audio>, le modèle peut être entraîné complètement à partir de zéro avec une initialisation aléatoire. Nous décrivons plusieurs techniques clés pour faire en sorte que le cadre séquence-à-séquence fonctionne bien pour cette tâche complexe. Tacotron obtient une note moyenne subjective de 3,82 sur une échelle de 5 points en anglais américain, surpassant un système paramétrique de production en termes de naturel. De plus, puisque Tacotron génère la parole au niveau des trames, il est considérablement plus rapide que les méthodes autorégressives basées sur les échantillons.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp