HyperAIHyperAI

Command Palette

Search for a command to run...

LipNet : Lecture labiale de phrases de bout en bout

Yannis M. Assael; Brendan Shillingford; Shimon Whiteson; Nando de Freitas

Résumé

La lecture labiale est la tâche de décoder du texte à partir des mouvements de la bouche d'un locuteur. Les approches traditionnelles séparaient le problème en deux étapes : la conception ou l'apprentissage de caractéristiques visuelles, et la prédiction. Les méthodes plus récentes de lecture labiale profonde sont entièrement entraînables (Wand et al., 2016 ; Chung & Zisserman, 2016a). Cependant, les travaux existants sur les modèles entraînés de manière end-to-end ne réalisent que la classification de mots, plutôt que la prédiction séquentielle au niveau des phrases. Des études ont montré que les performances humaines en lecture labiale s'améliorent pour les mots plus longs (Easton & Basala, 1982), soulignant l'importance des caractéristiques capturant le contexte temporel dans un canal de communication ambigu. Guidés par cette observation, nous présentons LipNet, un modèle qui mappe une séquence variable de cadres vidéo au texte, en utilisant des convolutions spatio-temporelles, un réseau récurrent et la perte de classification temporelle connexionniste (CTC), tout en étant entièrement entraîné de manière end-to-end. À notre connaissance, LipNet est le premier modèle de lecture labiale end-to-end au niveau des phrases qui apprend simultanément des caractéristiques visuelles spatio-temporelles et un modèle séquentiel. Sur le corpus GRID, LipNet atteint une précision de 95,2 % au niveau des phrases dans la tâche avec division croisée des locuteurs, surpassant ainsi les lecteurs labiaux humains expérimentés et la précision précédente record au niveau des mots de 86,4 % (Gergen et al., 2016).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp