HyperAIHyperAI

Command Palette

Search for a command to run...

Distinction des homophones à l'aide de la mémoire visuo-auditive multi-têtes pour la lecture labiale

Minsu Kim Jeong Hun Yeo Yong Man Ro*

Résumé

La reconnaissance de la parole à partir des mouvements des lèvres silencieuses, appelée lecture labiale, est une tâche complexe en raison de 1) l'insuffisance intrinsèque des informations fournies par les mouvements des lèvres pour représenter pleinement la parole, et 2) l'existence d'homophones qui présentent des mouvements des lèvres similaires mais avec des prononciations différentes. Dans cet article, nous tentons d'atténuer ces deux défis en proposant une Mémoire Visuelle-Audio Multi-têtes (MVM). Premièrement, la MVM est formée à l'aide de jeux de données audiovisuels et mémorise les représentations sonores en modélisant les interrelations entre les représentations audiovisuelles appariées. À l'étape d'inférence, l'entrée visuelle seule peut extraire la représentation sonore sauvegardée de la mémoire en examinant les interrelations apprises. Ainsi, le modèle de lecture labiale peut compléter les informations visuelles insuffisantes avec les représentations sonores extraites.Deuxièmement, la MVM est composée de plusieurs mémoires clés multi-têtes pour sauvegarder les caractéristiques visuelles et d'une mémoire valeur unique pour stocker les connaissances sonores, conçue pour distinguer les homophones. Grâce aux mémoires clés multi-têtes, la MVM extrait des caractéristiques sonores candidates possibles de la mémoire, ce qui permet au modèle de lecture labiale de prendre en compte les prononciations potentielles que peuvent représenter les mouvements des lèvres d'entrée. Cela peut également être considéré comme une mise en œuvre explicite du mappage un-à-plusieurs (visème-phonème).En outre, la MVM est utilisée à différents niveaux temporels pour tenir compte du contexte lors de la récupération de la mémoire et distinguer les homophones. Des résultats expérimentaux étendus vérifient l'efficacité de la méthode proposée dans la lecture labiale et dans la distinction des homophones.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp