HyperAIHyperAI
il y a 2 mois

Tacotron : Vers la synthèse vocale de bout en bout

Yuxuan Wang; RJ Skerry-Ryan; Daisy Stanton; Yonghui Wu; Ron J. Weiss; Navdeep Jaitly; Zongheng Yang; Ying Xiao; Zhifeng Chen; Samy Bengio; Quoc Le; Yannis Agiomyrgiannakis; Rob Clark; Rif A. Saurous
Tacotron : Vers la synthèse vocale de bout en bout
Résumé

Un système de synthèse vocale à partir du texte (text-to-speech) typiquement comprend plusieurs étapes, telles qu'un front-end d'analyse textuelle, un modèle acoustique et un module de synthèse audio. La construction de ces composants nécessite souvent une expertise approfondie dans le domaine et peut comporter des choix de conception fragiles. Dans cet article, nous présentons Tacotron, un modèle génératif de synthèse vocale à partir du texte qui synthétise directement la parole à partir des caractères. Étant donné des paires <texte, audio>, le modèle peut être entraîné complètement à partir de zéro avec une initialisation aléatoire. Nous décrivons plusieurs techniques clés pour faire en sorte que le cadre séquence-à-séquence fonctionne bien pour cette tâche complexe. Tacotron obtient une note moyenne subjective de 3,82 sur une échelle de 5 points en anglais américain, surpassant un système paramétrique de production en termes de naturel. De plus, puisque Tacotron génère la parole au niveau des trames, il est considérablement plus rapide que les méthodes autorégressives basées sur les échantillons.

Tacotron : Vers la synthèse vocale de bout en bout | Articles de recherche récents | HyperAI