HyperAIHyperAI
il y a 11 jours

Réseau de convolution de graphe sémantique-épisode-spatiale adaptatif pour la lecture labiale

{Li Liu, Matti Pietikäinen, Huiying Xu, Xinzhong Zhu, Changchong Sheng}
Résumé

L’objectif de ce travail est de reconnaître les mots, les phrases et les phrases entières prononcés par un visage parlant, sans avoir accès à l’audio. Les approches actuelles basées sur l’apprentissage profond pour la lecture labiale se concentrent principalement sur l’extraction des informations d’apparence et du flux optique présentes dans les vidéos. Toutefois, ces méthodes n’exploitent pas pleinement les caractéristiques du mouvement des lèvres. En complément de l’apparence et du flux optique, la déformation du contour de la bouche transmet généralement des informations significatives, complémentaires à celles issues des autres modalités. Pourtant, la modélisation du contour dynamique de la bouche a reçu bien moins d’attention que celle de l’apparence ou du flux optique. Dans ce travail, nous proposons un nouveau modèle de contours labiaux dynamiques, nommé Réseau de Convolution Graphique Spatio-Temporel Adaptatif à Sémantique (ASST-GCN), afin de dépasser les méthodes précédentes en apprenant automatiquement à la fois les informations spatiales et temporelles directement à partir des vidéos. Afin de combiner efficacement les informations complémentaires provenant de l’apparence et du contour labial, nous introduisons un réseau d’entrée visuelle à deux voies. Les résultats expérimentaux montrent que la méthode proposée dépasse significativement les meilleures méthodes actuelles de lecture labiale sur plusieurs benchmarks de grande échelle.

Réseau de convolution de graphe sémantique-épisode-spatiale adaptatif pour la lecture labiale | Articles de recherche récents | HyperAI