HyperAIHyperAI
il y a 15 jours

IIANet : Un réseau d'attention intra- et inter-modalité pour la séparation vocale audio-visuelle

Kai Li, Runxuan Yang, Fuchun Sun, Xiaolin Hu
IIANet : Un réseau d'attention intra- et inter-modalité pour la séparation vocale audio-visuelle
Résumé

Les recherches récentes ont permis des progrès significatifs dans la conception de modules de fusion pour la séparation vocale audio-visuelle. Toutefois, ces approches se concentrent principalement sur la fusion multimodale à une seule échelle temporelle des caractéristiques auditives et visuelles, sans recourir de mécanismes d’attention sélective, ce qui constitue une divergence marquée par rapport au fonctionnement du cerveau humain. Pour remédier à ce problème, nous proposons un nouveau modèle nommé Réseau d’Attention Intramodale et Intermodale (IIANet), qui exploite le mécanisme d’attention afin de réaliser une fusion efficace des caractéristiques audio-visuelles. IIANet se compose de deux types de blocs d’attention : des blocs d’attention intramodale (IntraA) et des blocs d’attention intermodale (InterA), lesquels sont répartis respectivement en haut, au milieu et en bas du réseau. Fortement inspiré du fonctionnement du cerveau humain, qui sélectionne de manière ciblée les informations pertinentes à différentes échelles temporelles, ce dispositif préserve la capacité à apprendre des caractéristiques spécifiques à chaque modalité, tout en permettant l’extraction de significations différentes à partir des caractéristiques audio-visuelles. Des expériences approfondies menées sur trois benchmarks standard de séparation audio-visuelle (LRS2, LRS3 et VoxCeleb2) démontrent l’efficacité de IIANet, qui surpassent les méthodes de pointe précédentes tout en maintenant un temps d’inférence comparable. En particulier, la version rapide de IIANet (IIANet-fast) ne consomme que 7 % des MACs de CTCNet et est 40 % plus rapide que CTCNet sur processeur central, tout en offrant une qualité de séparation supérieure, mettant ainsi en évidence le grand potentiel du mécanisme d’attention pour une fusion multimodale à la fois efficace et performante.

IIANet : Un réseau d'attention intra- et inter-modalité pour la séparation vocale audio-visuelle | Articles de recherche récents | HyperAI