HyperAIHyperAI

Command Palette

Search for a command to run...

Modélisation spatio-temporelle multi-grain pour la lecture labiale

Chenhao Wang

Résumé

La lecture labiale vise à reconnaître le contenu de la parole à partir de vidéos par l'analyse visuelle des mouvements des lèvres des locuteurs. Cette tâche est complexe en raison de l'existence d'homophones – mots qui impliquent des mouvements labiaux identiques ou très similaires – ainsi que des apparences et modèles de mouvement labial diversifiés parmi les locuteurs. Pour relever ces défis, nous proposons un nouveau modèle de lecture labiale qui capture non seulement les nuances entre les mots, mais aussi les styles de différents locuteurs, grâce à une modélisation spatio-temporelle multi-granulaire du processus de parole. Plus précisément, nous extrayons d'abord des caractéristiques fines au niveau des images et des caractéristiques moyennes à court terme par l'intermédiaire du front-end visuel, qui sont ensuite combinées pour obtenir des représentations discriminantes pour les mots avec des phonèmes similaires. Ensuite, un ConvLSTM bidirectionnel augmenté d'une attention temporelle agrège les informations spatio-temporelles sur toute la séquence d'entrée, ce qui devrait permettre de capturer les motifs grossiers de chaque mot et d'être robuste face aux différentes conditions liées à l'identité du locuteur, aux conditions d'éclairage, etc. En exploitant pleinement les informations provenant de différents niveaux dans un cadre unifié, le modèle est non seulement capable de distinguer les mots ayant des prononciations similaires, mais devient également robuste aux changements d'apparence. Nous évaluons notre méthode sur deux benchmarks difficiles de lecture labiale au niveau des mots et montrons l'efficacité de la méthode proposée, qui démontre également les affirmations ci-dessus.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp