Reconnaissance de la parole audiovisuelle assistée par graphe de lip avec fusion synchrone bidirectionnelle

Les études actuelles ont montré qu’extraction de caractéristiques visuelles représentatives et fusion efficace des modalités audio et visuelle sont essentielles pour la reconnaissance audio-visuelle de la parole (AVSR), mais ces tâches restent encore complexes. À cet effet, nous proposons une méthode AVSR assistée par graphe labial avec fusion synchrone bidirectionnelle. Premièrement, un flux visuel hybride combine une branche d’image et une branche de graphe afin de capturer des caractéristiques visuelles discriminantes. Plus précisément, le graphe labial exploite les connexions naturelles et dynamiques entre les points clés des lèvres pour modéliser la forme labiale, tandis que l’évolution temporelle de ce graphe est capturée par des réseaux de convolution de graphe suivis d’unités récurrentes à portes bidirectionnelles. Deuxièmement, le flux visuel hybride est combiné avec le flux audio au moyen d’une fusion bidirectionnelle basée sur l’attention, permettant une interaction bidirectionnelle des informations afin de résoudre l’asynchronie entre les deux modalités lors de la fusion. Les résultats expérimentaux sur le jeu de données LRW-BBC montrent que notre méthode surpasser l’approche de référence AVSR end-to-end dans des conditions propres comme dans des conditions bruitées.