il y a 15 jours

TDFNet : un modèle efficace de séparation vocale audio-visuelle avec fusion haut-bas

Samuel Pegg, Kai Li, Xiaolin Hu

Résumé

La séparation de parole audiovisuelle a connu un intérêt croissant ces dernières années en raison de ses nombreuses applications potentielles dans des domaines tels que la reconnaissance vocale, la diarisation, l’analyse de scènes et les technologies d’assistance. Concevoir un réseau léger pour la séparation de parole audiovisuelle est essentiel pour les applications à faible latence, mais les méthodes existantes nécessitent souvent des coûts computationnels élevés et un grand nombre de paramètres pour atteindre de meilleures performances. Dans cet article, nous proposons un modèle de séparation de parole audiovisuelle appelé Top-Down-Fusion Net (TDFNet), un modèle de pointe (SOTA) pour la séparation de parole audiovisuelle, qui s’appuie sur l’architecture de TDANet, une méthode de séparation de parole basée uniquement sur le canal audio. TDANet sert de fondation architecturale pour les réseaux auditifs et visuels au sein de TDFNet, offrant un modèle efficace avec un nombre réduit de paramètres. Sur le jeu de données LRS2-2Mix, TDFNet améliore les performances de jusqu’à 10 % sur tous les indicateurs de performance par rapport à la méthode SOTA précédente, CTCNet. De façon remarquable, ces résultats sont obtenus avec un nombre de paramètres inférieur et seulement 28 % des opérations de multiplication-accumulation (MACs) nécessaires par CTCNet. En somme, notre approche constitue une solution hautement efficace et performante face aux défis de la séparation de parole dans le domaine audiovisuel, marquant une avancée significative dans l’exploitation optimale des informations visuelles.