HyperAIHyperAI
il y a 17 jours

Amélioration de la parole visuelle sans flux visuel réel

Sindhu B Hegde, K R Prajwal, Rudrabha Mukhopadhyay, Vinay Namboodiri, C.V. Jawahar
Amélioration de la parole visuelle sans flux visuel réel
Résumé

Dans ce travail, nous repensons la tâche de l’amélioration de la parole dans des environnements réels non contraints. Les méthodes actuelles de pointe utilisent uniquement le flux audio et sont limitées en performance face à une large variété de bruits réels. Des travaux récents qui intègrent les mouvements des lèvres comme indicateur supplémentaire améliorent la qualité de la parole synthétisée par rapport aux approches « audio uniquement ». Toutefois, ces méthodes ne peuvent être appliquées dans plusieurs scénarios où le flux visuel est fiable ou totalement absent. Nous proposons un nouveau paradigme pour l’amélioration de la parole en exploitant les avancées récentes dans la synthèse des mouvements des lèvres pilotés par la parole. En utilisant un tel modèle comme réseau enseignant, nous entraînons un réseau étudiant robuste afin de produire des mouvements de lèvres précis qui masquent le bruit, agissant ainsi comme un « filtre visuel de suppression de bruit ». L’intelligibilité de la parole améliorée par notre approche basée sur des lèvres pseudo-réelles est comparable (avec une différence inférieure à 3 %) à celle obtenue avec des lèvres réelles. Cela implique que nous pouvons tirer parti des avantages des mouvements des lèvres même en l’absence d’un flux vidéo réel. Nous évaluons rigoureusement notre modèle à l’aide de métriques quantitatives ainsi que d’évaluations humaines. Des études d’ablation supplémentaires et une vidéo démo disponible sur notre site web, présentant des comparaisons qualitatives et des résultats, illustrent clairement l’efficacité de notre approche. Une vidéo démo est disponible sur notre site : \url{http://cvit.iiit.ac.in/research/projects/cvit-projects/visual-speech-enhancement-without-a-real-visual-stream}. Le code source et les modèles sont également publiés pour encourager les recherches futures : \url{https://github.com/Sindhu-Hegde/pseudo-visual-speech-denoising}.

Amélioration de la parole visuelle sans flux visuel réel | Articles de recherche récents | HyperAI