HyperAIHyperAI
il y a un mois

Reconnaissance de la Parole Audio-Visuelle Profonde

Triantafyllos Afouras; Joon Son Chung; Andrew Senior; Oriol Vinyals; Andrew Zisserman
Reconnaissance de la Parole Audio-Visuelle Profonde
Résumé

L'objectif de cette étude est de reconnaître les phrases et les propositions prononcées par un visage parlant, avec ou sans le son. Contrairement aux travaux précédents qui se sont concentrés sur la reconnaissance d'un nombre limité de mots ou de phrases, nous abordons la lecture labiale comme un problème du monde ouvert – des phrases en langage naturel non contraintes et des vidéos en conditions réelles. Nos contributions principales sont les suivantes : (1) nous comparons deux modèles pour la lecture labiale, l'un utilisant une perte CTC (Connectionist Temporal Classification), et l'autre utilisant une perte séquence-à-séquence. Les deux modèles reposent sur l'architecture de l'auto-attention du transformateur ; (2) nous examinons dans quelle mesure la lecture labiale est complémentaire à la reconnaissance vocale, en particulier lorsque le signal audio est bruyant ; (3) nous présentons et mettons à disposition publiquement un nouveau jeu de données pour la reconnaissance audiovisuelle de la parole, LRS2-BBC, composé de milliers de phrases naturelles issues de la télévision britannique. Les modèles que nous entraînons surpassent significativement les performances de tous les travaux antérieurs sur un jeu de données de référence pour la lecture labiale.