HyperAIHyperAI

Command Palette

Search for a command to run...

Réseau de convolution de graphe sémantique-épisode-spatiale adaptatif pour la lecture labiale

Li Liu Matti Pietikäinen Huiying Xu Xinzhong Zhu Changchong Sheng

Résumé

L’objectif de ce travail est de reconnaître les mots, les phrases et les phrases entières prononcés par un visage parlant, sans avoir accès à l’audio. Les approches actuelles basées sur l’apprentissage profond pour la lecture labiale se concentrent principalement sur l’extraction des informations d’apparence et du flux optique présentes dans les vidéos. Toutefois, ces méthodes n’exploitent pas pleinement les caractéristiques du mouvement des lèvres. En complément de l’apparence et du flux optique, la déformation du contour de la bouche transmet généralement des informations significatives, complémentaires à celles issues des autres modalités. Pourtant, la modélisation du contour dynamique de la bouche a reçu bien moins d’attention que celle de l’apparence ou du flux optique. Dans ce travail, nous proposons un nouveau modèle de contours labiaux dynamiques, nommé Réseau de Convolution Graphique Spatio-Temporel Adaptatif à Sémantique (ASST-GCN), afin de dépasser les méthodes précédentes en apprenant automatiquement à la fois les informations spatiales et temporelles directement à partir des vidéos. Afin de combiner efficacement les informations complémentaires provenant de l’apparence et du contour labial, nous introduisons un réseau d’entrée visuelle à deux voies. Les résultats expérimentaux montrent que la méthode proposée dépasse significativement les meilleures méthodes actuelles de lecture labiale sur plusieurs benchmarks de grande échelle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp