HyperAIHyperAI
il y a un mois

Reconnaissance visuelle de la parole à grande échelle

Brendan Shillingford; Yannis Assael; Matthew W. Hoffman; Thomas Paine; Cían Hughes; Utsav Prabhu; Hank Liao; Hasim Sak; Kanishka Rao; Lorrayne Bennett; Marie Mulville; Ben Coppin; Ben Laurie; Andrew Senior; Nando de Freitas
Reconnaissance visuelle de la parole à grande échelle
Résumé

Ce travail présente une solution évolutive à la reconnaissance visuelle de la parole en vocabulaire ouvert. Pour y parvenir, nous avons construit le plus grand ensemble de données existant pour la reconnaissance visuelle de la parole, composé de paires de texte et de clips vidéo montrant des visages parlant (3 886 heures de vidéo). Parallèlement, nous avons conçu et formé un système intégré de lecture labiale, comprenant une chaîne de traitement vidéo qui convertit les vidéos brutes en vidéos stables des lèvres et en séquences de phonèmes, un réseau neuronal profond évolutif qui mappe les vidéos des lèvres à des séquences de distributions de phonèmes, et un décodeur vocal de niveau industriel qui génère des séquences de mots. Le système proposé atteint un taux d'erreur sur les mots (WER) de 40,9 % mesuré sur un ensemble réservé. En comparaison, les lecteurs labiaux professionnels obtiennent soit 86,4 % soit 92,9 % WER sur le même ensemble de données lorsqu'ils ont accès à des types supplémentaires d'informations contextuelles. Notre approche améliore considérablement les autres méthodes de lecture labiale, notamment des variantes de LipNet et du modèle Watch, Attend and Spell (WAS), qui ne parviennent qu'à des WER respectifs de 89,8 % et 76,8 %.

Reconnaissance visuelle de la parole à grande échelle | Articles de recherche récents | HyperAI