Reconnaissance de la Parole Audio-Vidéo avec une Architecture Hybride CTC/Attention

Les travaux récents en reconnaissance vocale s'appuient soit sur la classification temporelle connexionniste (CTC) soit sur des modèles séquence-à-séquence pour la reconnaissance au niveau des caractères. La CTC suppose l'indépendance conditionnelle des caractères individuels, tandis que les modèles basés sur l'attention peuvent fournir des alignements non séquentiels. Par conséquent, il est possible d'utiliser une perte CTC en combinaison avec un modèle basé sur l'attention afin de forcer des alignements monotones et, simultanément, de se débarrasser de l'hypothèse d'indépendance conditionnelle. Dans cet article, nous utilisons l'architecture hybride CTC/attention récemment proposée pour la reconnaissance audiovisuelle de la parole dans des conditions naturelles. À notre connaissance, c'est la première fois qu'une telle architecture hybride est utilisée pour la reconnaissance audiovisuelle de la parole. Nous utilisons la base de données LRS2 et montrons que le modèle audiovisuel proposé entraîne une diminution absolue de 1,3 % du taux d'erreur mot par rapport au modèle uniquement audio et atteint les nouvelles performances de pointe sur la base de données LRS2 (7 % de taux d'erreur mot). Nous observons également que le modèle audiovisuel dépasse significativement le modèle basé sur l'audio (jusqu'à 32,9 % d'amélioration absolue du taux d'erreur mot) pour plusieurs types différents de bruit lorsque le rapport signal-bruit diminue.