HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance de la parole audiovisuelle assistée par graphe de lip avec fusion synchrone bidirectionnelle

Bing Yang Zhan Chen Hong Liu

Résumé

Les études actuelles ont montré qu’extraction de caractéristiques visuelles représentatives et fusion efficace des modalités audio et visuelle sont essentielles pour la reconnaissance audio-visuelle de la parole (AVSR), mais ces tâches restent encore complexes. À cet effet, nous proposons une méthode AVSR assistée par graphe labial avec fusion synchrone bidirectionnelle. Premièrement, un flux visuel hybride combine une branche d’image et une branche de graphe afin de capturer des caractéristiques visuelles discriminantes. Plus précisément, le graphe labial exploite les connexions naturelles et dynamiques entre les points clés des lèvres pour modéliser la forme labiale, tandis que l’évolution temporelle de ce graphe est capturée par des réseaux de convolution de graphe suivis d’unités récurrentes à portes bidirectionnelles. Deuxièmement, le flux visuel hybride est combiné avec le flux audio au moyen d’une fusion bidirectionnelle basée sur l’attention, permettant une interaction bidirectionnelle des informations afin de résoudre l’asynchronie entre les deux modalités lors de la fusion. Les résultats expérimentaux sur le jeu de données LRW-BBC montrent que notre méthode surpasser l’approche de référence AVSR end-to-end dans des conditions propres comme dans des conditions bruitées.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp