il y a un mois

Lecture labiale de phrases dans des conditions naturelles

Joon Son Chung; Andrew Senior; Oriol Vinyals; Andrew Zisserman

Résumé

L'objectif de ce travail est de reconnaître les phrases et les propositions prononcées par un visage parlant, avec ou sans le son. Contrairement aux travaux précédents qui se sont concentrés sur la reconnaissance d'un nombre limité de mots ou de phrases, nous abordons la lecture labiale comme un problème du monde ouvert - des phrases en langage naturel non contraintes, et des vidéos en conditions réelles.Nos principales contributions sont : (1) un réseau « Watch, Listen, Attend and Spell » (WLAS) qui apprend à transcrire des vidéos de mouvements buccaux en caractères ; (2) une stratégie d'apprentissage par programme progressif pour accélérer l'entraînement et réduire le surapprentissage ; (3) un ensemble de données « Lip Reading Sentences » (LRS) pour la reconnaissance visuelle de la parole, composé de plus de 100 000 phrases naturelles issues de la télévision britannique.Le modèle WLAS formé sur l'ensemble de données LRS dépasse les performances de toutes les œuvres précédentes sur les ensembles de référence standard pour la lecture labiale, souvent avec une marge significative. Cette performance en lecture labiale bat celle d'un lecteur labial professionnel sur des vidéos provenant de la télévision BBC, et nous démontrons également que l'information visuelle aide à améliorer les performances de reconnaissance vocale même lorsque le son est disponible.