HyperAIHyperAI

Command Palette

Search for a command to run...

IIANet : Un réseau d'attention intra- et inter-modalité pour la séparation vocale audio-visuelle

Kai Li Runxuan Yang Fuchun Sun Xiaolin Hu

Résumé

Les recherches récentes ont permis des progrès significatifs dans la conception de modules de fusion pour la séparation vocale audio-visuelle. Toutefois, ces approches se concentrent principalement sur la fusion multimodale à une seule échelle temporelle des caractéristiques auditives et visuelles, sans recourir de mécanismes d’attention sélective, ce qui constitue une divergence marquée par rapport au fonctionnement du cerveau humain. Pour remédier à ce problème, nous proposons un nouveau modèle nommé Réseau d’Attention Intramodale et Intermodale (IIANet), qui exploite le mécanisme d’attention afin de réaliser une fusion efficace des caractéristiques audio-visuelles. IIANet se compose de deux types de blocs d’attention : des blocs d’attention intramodale (IntraA) et des blocs d’attention intermodale (InterA), lesquels sont répartis respectivement en haut, au milieu et en bas du réseau. Fortement inspiré du fonctionnement du cerveau humain, qui sélectionne de manière ciblée les informations pertinentes à différentes échelles temporelles, ce dispositif préserve la capacité à apprendre des caractéristiques spécifiques à chaque modalité, tout en permettant l’extraction de significations différentes à partir des caractéristiques audio-visuelles. Des expériences approfondies menées sur trois benchmarks standard de séparation audio-visuelle (LRS2, LRS3 et VoxCeleb2) démontrent l’efficacité de IIANet, qui surpassent les méthodes de pointe précédentes tout en maintenant un temps d’inférence comparable. En particulier, la version rapide de IIANet (IIANet-fast) ne consomme que 7 % des MACs de CTCNet et est 40 % plus rapide que CTCNet sur processeur central, tout en offrant une qualité de séparation supérieure, mettant ainsi en évidence le grand potentiel du mécanisme d’attention pour une fusion multimodale à la fois efficace et performante.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
IIANet : Un réseau d'attention intra- et inter-modalité pour la séparation vocale audio-visuelle | Articles | HyperAI