HyperAIHyperAI
il y a 2 mois

Apprentissage des styles de parole individuels pour une synthèse précise de la parole à partir des lèvres

Prajwal, K R ; Mukhopadhyay, Rudrabha ; Namboodiri, Vinay ; Jawahar, C V
Apprentissage des styles de parole individuels pour une synthèse précise de la parole à partir des lèvres
Résumé

Les humains ont tendance à inférer involontairement des parties d'une conversation à partir des mouvements des lèvres lorsque la parole est absente ou altérée par le bruit extérieur. Dans cette étude, nous explorons la tâche de synthèse vocale à partir des mouvements des lèvres, c'est-à-dire apprendre à générer un discours naturel en se basant uniquement sur les mouvements des lèvres d'un locuteur.Reconnaissant l'importance des indices contextuels et spécifiques au locuteur pour une lecture labiale précise, nous empruntons une voie différente de celle adoptée dans les travaux existants. Nous nous concentrons sur l'apprentissage de correspondances précises entre les séquences de mouvements des lèvres et la parole pour chaque locuteur individuel, dans des configurations à vocabulaire large et non contraintes. À cette fin, nous avons collecté et mis à disposition un ensemble de données de référence à grande échelle, le premier du genre, spécialement conçu pour entraîner et évaluer la tâche de synthèse vocale à partir des mouvements des lèvres d'un seul locuteur dans des conditions naturelles.Nous proposons une nouvelle approche avec des choix de conception clés pour réaliser une synthèse vocale précise et naturelle à partir des mouvements des lèvres dans ces scénarios non contraints pour la première fois. Une évaluation approfondie utilisant des métriques quantitatives, qualitatives et une évaluation par les humains montre que notre méthode est quatre fois plus compréhensible que les travaux précédents dans ce domaine. Veuillez consulter notre vidéo démonstration pour un aperçu rapide du papier, de la méthode et des résultats qualitatifs.https://www.youtube.com/watch?v=HziA-jmlk_4&feature=youtu.be

Apprentissage des styles de parole individuels pour une synthèse précise de la parole à partir des lèvres | Articles de recherche récents | HyperAI