Lipreading à l’aide de réseaux de convolution temporelle

La lecture des lèvres a récemment attiré une attention croissante dans la recherche, grâce aux progrès réalisés dans le domaine du deep learning. Le modèle actuellement le plus performant pour la reconnaissance de mots isolés dans des environnements naturels repose sur un réseau résiduel combiné à des couches Bidirectionnelles à Unités Récurrentes à Portes (BGRU). Dans ce travail, nous abordons les limitations de ce modèle et proposons des modifications qui améliorent encore ses performances. Premièrement, les couches BGRU sont remplacées par des Réseaux de Convolutions Temporelles (TCN). Deuxièmement, nous simplifions considérablement la procédure d'entraînement, permettant ainsi d'entraîner le modèle en une seule phase. Troisièmement, nous montrons que la méthodologie actuelle du state-of-the-art produit des modèles qui ne généralisent pas bien aux variations de longueur des séquences, et nous résolvons ce problème en proposant une augmentation adaptée aux longueurs variables. Nous présentons nos résultats sur les plus grands jeux de données publics disponibles pour la reconnaissance de mots isolés en anglais et en mandarin, respectivement LRW et LRW1000. Notre modèle proposé obtient une amélioration absolue de 1,2 % et 3,2 % sur ces deux jeux de données, établissant ainsi une nouvelle performance de référence.