Reconnaissance audiovisuelle de paroles superposées sur le jeu de données LRS2

La reconnaissance automatique de paroles superposées reste un défi majeur à ce jour. Inspirés par la nature bimodale de la perception humaine du langage parlé, cette étude explore l’utilisation de technologies audio-visuelles pour la reconnaissance de paroles superposées. Trois problématiques liées à la conception de systèmes de reconnaissance audio-visuelle (AVSR) sont abordées. Premièrement, les architectures de base — à savoir les systèmes end-to-end et hybrides — sont examinées. Deuxièmement, des portes de fusion de modalités spécifiquement conçues sont employées afin d’intégrer de manière robuste les caractéristiques audio et visuelles. Troisièmement, contrairement à une architecture classique en pipeline comprenant des composants explicites de séparation et de reconnaissance vocales, un système AVSR allégé et intégré, optimisé de manière cohérente via le critère discriminatif lattice-free MMI (LF-MMI), est également proposé. Le système TDNN basé sur LF-MMI proposé établit un nouveau record sur le jeu de données LRS2. Des expériences menées sur des paroles superposées simulées à partir du jeu de données LRS2 montrent que le système AVSR proposé améliore le taux d’erreur mot (WER) de jusqu’à 29,98 % par rapport au système de référence audio uniquement basé sur LF-MMI DNN, tout en atteignant une performance comparable à celle d’un système en pipeline plus complexe. Des améliorations constantes de 4,89 % en WER par rapport au système AVSR de référence utilisant une fusion de caractéristiques sont également obtenues.