HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance audiovisuelle de paroles superposées sur le jeu de données LRS2

Jianwei Yu Shi-Xiong Zhang Jian Wu Shahram Ghorbani Bo Wu Shiyin Kang Shansong Liu Xunying Liu Helen Meng Dong Yu

Résumé

La reconnaissance automatique de paroles superposées reste un défi majeur à ce jour. Inspirés par la nature bimodale de la perception humaine du langage parlé, cette étude explore l’utilisation de technologies audio-visuelles pour la reconnaissance de paroles superposées. Trois problématiques liées à la conception de systèmes de reconnaissance audio-visuelle (AVSR) sont abordées. Premièrement, les architectures de base — à savoir les systèmes end-to-end et hybrides — sont examinées. Deuxièmement, des portes de fusion de modalités spécifiquement conçues sont employées afin d’intégrer de manière robuste les caractéristiques audio et visuelles. Troisièmement, contrairement à une architecture classique en pipeline comprenant des composants explicites de séparation et de reconnaissance vocales, un système AVSR allégé et intégré, optimisé de manière cohérente via le critère discriminatif lattice-free MMI (LF-MMI), est également proposé. Le système TDNN basé sur LF-MMI proposé établit un nouveau record sur le jeu de données LRS2. Des expériences menées sur des paroles superposées simulées à partir du jeu de données LRS2 montrent que le système AVSR proposé améliore le taux d’erreur mot (WER) de jusqu’à 29,98 % par rapport au système de référence audio uniquement basé sur LF-MMI DNN, tout en atteignant une performance comparable à celle d’un système en pipeline plus complexe. Des améliorations constantes de 4,89 % en WER par rapport au système AVSR de référence utilisant une fusion de caractéristiques sont également obtenues.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Reconnaissance audiovisuelle de paroles superposées sur le jeu de données LRS2 | Articles | HyperAI