HyperAIHyperAI
il y a 2 mois

Lecture labiale au niveau des sous-mots avec attention visuelle

Prajwal, K R ; Afouras, Triantafyllos ; Zisserman, Andrew
Lecture labiale au niveau des sous-mots avec attention visuelle
Résumé

L'objectif de cet article est d'apprendre des modèles robustes de lecture labiale capables de reconnaître la parole dans des vidéos silencieuses. La plupart des travaux antérieurs abordent le problème de reconnaissance visuelle de la parole en adaptant des techniques existantes de reconnaissance automatique de la parole sur des caractéristiques visuelles regroupées de manière triviale. En revanche, dans cet article, nous nous concentrons sur les défis uniques rencontrés en lecture labiale et proposons des solutions spécifiquement conçues. À cette fin, nous apportons les contributions suivantes :1) Nous proposons un mécanisme de regroupement basé sur l'attention pour agréger les représentations de la parole visuelle ;2) Nous utilisons des unités sous-mot pour la première fois en lecture labiale et montrons que cela nous permet de mieux modéliser les ambiguïtés inhérentes à cette tâche ;3) Nous proposons un modèle pour la Détection Visuelle de la Parole (VSD), formé au-dessus du réseau de lecture labiale.En suivant ces approches, nous obtenons des résultats d'état de l'art sur les benchmarks difficiles LRS2 et LRS3 lors de l'entraînement sur des jeux de données publics, et surpassons même les modèles formés sur des jeux de données industriels à grande échelle en utilisant dix fois moins de données. Notre meilleur modèle atteint un taux d'erreur mot (WER) de 22,6 % sur le jeu de données LRS2, une performance sans précédent pour les modèles de lecture labiale, réduisant considérablement l'écart entre la performance en lecture labiale et en reconnaissance automatique de la parole. De plus, sur le benchmark AVA-ActiveSpeaker, notre modèle VSD dépasse toutes les lignes de base uniquement visuelles et même plusieurs méthodes audio-visuelles récentes.