il y a 10 jours

Reconnaissance audiovisuelle de paroles superposées sur le jeu de données LRS2

Jianwei Yu, Shi-Xiong Zhang, Jian Wu, Shahram Ghorbani, Bo Wu, Shiyin Kang, Shansong Liu, Xunying Liu, Helen Meng, Dong Yu

Voir les détails de l'article

Reconnaissance audiovisuelle de paroles superposées sur le jeu de données LRS2

Résumé

La reconnaissance automatique de paroles superposées reste un défi majeur à ce jour. Inspirés par la nature bimodale de la perception humaine du langage parlé, cette étude explore l’utilisation de technologies audio-visuelles pour la reconnaissance de paroles superposées. Trois problématiques liées à la conception de systèmes de reconnaissance audio-visuelle (AVSR) sont abordées. Premièrement, les architectures de base — à savoir les systèmes end-to-end et hybrides — sont examinées. Deuxièmement, des portes de fusion de modalités spécifiquement conçues sont employées afin d’intégrer de manière robuste les caractéristiques audio et visuelles. Troisièmement, contrairement à une architecture classique en pipeline comprenant des composants explicites de séparation et de reconnaissance vocales, un système AVSR allégé et intégré, optimisé de manière cohérente via le critère discriminatif lattice-free MMI (LF-MMI), est également proposé. Le système TDNN basé sur LF-MMI proposé établit un nouveau record sur le jeu de données LRS2. Des expériences menées sur des paroles superposées simulées à partir du jeu de données LRS2 montrent que le système AVSR proposé améliore le taux d’erreur mot (WER) de jusqu’à 29,98 % par rapport au système de référence audio uniquement basé sur LF-MMI DNN, tout en atteignant une performance comparable à celle d’un système en pipeline plus complexe. Des améliorations constantes de 4,89 % en WER par rapport au système AVSR de référence utilisant une fusion de caractéristiques sont également obtenues.