HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de la parole visuelle sans flux visuel réel

Sindhu B Hegde K R Prajwal Rudrabha Mukhopadhyay Vinay Namboodiri C.V. Jawahar

Résumé

Dans ce travail, nous repensons la tâche de l’amélioration de la parole dans des environnements réels non contraints. Les méthodes actuelles de pointe utilisent uniquement le flux audio et sont limitées en performance face à une large variété de bruits réels. Des travaux récents qui intègrent les mouvements des lèvres comme indicateur supplémentaire améliorent la qualité de la parole synthétisée par rapport aux approches « audio uniquement ». Toutefois, ces méthodes ne peuvent être appliquées dans plusieurs scénarios où le flux visuel est fiable ou totalement absent. Nous proposons un nouveau paradigme pour l’amélioration de la parole en exploitant les avancées récentes dans la synthèse des mouvements des lèvres pilotés par la parole. En utilisant un tel modèle comme réseau enseignant, nous entraînons un réseau étudiant robuste afin de produire des mouvements de lèvres précis qui masquent le bruit, agissant ainsi comme un « filtre visuel de suppression de bruit ». L’intelligibilité de la parole améliorée par notre approche basée sur des lèvres pseudo-réelles est comparable (avec une différence inférieure à 3 %) à celle obtenue avec des lèvres réelles. Cela implique que nous pouvons tirer parti des avantages des mouvements des lèvres même en l’absence d’un flux vidéo réel. Nous évaluons rigoureusement notre modèle à l’aide de métriques quantitatives ainsi que d’évaluations humaines. Des études d’ablation supplémentaires et une vidéo démo disponible sur notre site web, présentant des comparaisons qualitatives et des résultats, illustrent clairement l’efficacité de notre approche. Une vidéo démo est disponible sur notre site : \url{http://cvit.iiit.ac.in/research/projects/cvit-projects/visual-speech-enhancement-without-a-real-visual-stream}. Le code source et les modèles sont également publiés pour encourager les recherches futures : \url{https://github.com/Sindhu-Hegde/pseudo-visual-speech-denoising}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp