il y a un mois

LipNet : Lecture labiale de phrases de bout en bout

Yannis M. Assael; Brendan Shillingford; Shimon Whiteson; Nando de Freitas

Résumé

La lecture labiale est la tâche de décoder du texte à partir des mouvements de la bouche d'un locuteur. Les approches traditionnelles séparaient le problème en deux étapes : la conception ou l'apprentissage de caractéristiques visuelles, et la prédiction. Les méthodes plus récentes de lecture labiale profonde sont entièrement entraînables (Wand et al., 2016 ; Chung & Zisserman, 2016a). Cependant, les travaux existants sur les modèles entraînés de manière end-to-end ne réalisent que la classification de mots, plutôt que la prédiction séquentielle au niveau des phrases. Des études ont montré que les performances humaines en lecture labiale s'améliorent pour les mots plus longs (Easton & Basala, 1982), soulignant l'importance des caractéristiques capturant le contexte temporel dans un canal de communication ambigu. Guidés par cette observation, nous présentons LipNet, un modèle qui mappe une séquence variable de cadres vidéo au texte, en utilisant des convolutions spatio-temporelles, un réseau récurrent et la perte de classification temporelle connexionniste (CTC), tout en étant entièrement entraîné de manière end-to-end. À notre connaissance, LipNet est le premier modèle de lecture labiale end-to-end au niveau des phrases qui apprend simultanément des caractéristiques visuelles spatio-temporelles et un modèle séquentiel. Sur le corpus GRID, LipNet atteint une précision de 95,2 % au niveau des phrases dans la tâche avec division croisée des locuteurs, surpassant ainsi les lecteurs labiaux humains expérimentés et la précision précédente record au niveau des mots de 86,4 % (Gergen et al., 2016).