il y a 6 mois

Résumé

Dans ce travail, nous repensons la tâche de l’amélioration de la parole dans des environnements réels non contraints. Les méthodes actuelles de pointe utilisent uniquement le flux audio et sont limitées en performance face à une large variété de bruits réels. Des travaux récents qui intègrent les mouvements des lèvres comme indicateur supplémentaire améliorent la qualité de la parole synthétisée par rapport aux approches « audio uniquement ». Toutefois, ces méthodes ne peuvent être appliquées dans plusieurs scénarios où le flux visuel est fiable ou totalement absent. Nous proposons un nouveau paradigme pour l’amélioration de la parole en exploitant les avancées récentes dans la synthèse des mouvements des lèvres pilotés par la parole. En utilisant un tel modèle comme réseau enseignant, nous entraînons un réseau étudiant robuste afin de produire des mouvements de lèvres précis qui masquent le bruit, agissant ainsi comme un « filtre visuel de suppression de bruit ». L’intelligibilité de la parole améliorée par notre approche basée sur des lèvres pseudo-réelles est comparable (avec une différence inférieure à 3 %) à celle obtenue avec des lèvres réelles. Cela implique que nous pouvons tirer parti des avantages des mouvements des lèvres même en l’absence d’un flux vidéo réel. Nous évaluons rigoureusement notre modèle à l’aide de métriques quantitatives ainsi que d’évaluations humaines. Des études d’ablation supplémentaires et une vidéo démo disponible sur notre site web, présentant des comparaisons qualitatives et des résultats, illustrent clairement l’efficacité de notre approche. Une vidéo démo est disponible sur notre site : \url{http://cvit.iiit.ac.in/research/projects/cvit-projects/visual-speech-enhancement-without-a-real-visual-stream}. Le code source et les modèles sont également publiés pour encourager les recherches futures : \url{https://github.com/Sindhu-Hegde/pseudo-visual-speech-denoising}.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Traitement Audio Et Vocal

Sindhu B Hegde K R Prajwal Rudrabha Mukhopadhyay Vinay Namboodiri C.V. Jawahar

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Traitement Audio Et Vocal

Sindhu B Hegde K R Prajwal Rudrabha Mukhopadhyay Vinay Namboodiri C.V. Jawahar

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Amélioration de la parole visuelle sans flux visuel réel | Articles | HyperAI

Command Palette

Amélioration de la parole visuelle sans flux visuel réel

Sindhu B Hegde K R Prajwal Rudrabha Mukhopadhyay Vinay Namboodiri C.V. Jawahar

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Amélioration de la parole visuelle sans flux visuel réel

Sindhu B Hegde K R Prajwal Rudrabha Mukhopadhyay Vinay Namboodiri C.V. Jawahar

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Amélioration de la parole visuelle sans flux visuel réel

Sindhu B Hegde K R Prajwal Rudrabha Mukhopadhyay Vinay Namboodiri C.V. Jawahar

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters