il y a 17 jours

Exploration des mécanismes d'attention auto-associative pour la séparation de parole

Cem Subakan, Mirco Ravanelli, Samuele Cornell, Francois Grondin, Mirko Bronzi

Résumé

Les Transformers ont permis des progrès remarquables dans l'apprentissage profond. Ils surpassent souvent les modèles récurrents et convolutionnels sur de nombreuses tâches tout en tirant parti du traitement parallèle. Récemment, nous avons proposé le SepFormer, qui atteint des performances de pointe dans la séparation de paroles sur les jeux de données WSJ0-2/3 Mix. Ce travail explore de manière approfondie l'utilisation des Transformers pour la séparation de paroles. Plus précisément, nous étendons nos résultats précédents sur le SepFormer en présentant des performances sur des jeux de données plus exigeants, tels que LibriMix, WHAM! et WHAMR!. En outre, nous étendons notre modèle pour qu'il réalise également une amélioration du signal vocal, et fournissons des preuves expérimentales sur les tâches de suppression de bruit et de déréverbération. Enfin, pour la première fois dans le domaine de la séparation de paroles, nous étudions l'usage de mécanismes d'attention auto-efficients tels que Linformers, Lonformers et ReFormers. Nous constatons qu'ils réduisent de manière significative les besoins en mémoire. Par exemple, nous montrons que l'attention basée sur Reformer surpasse le modèle populaire Conv-TasNet sur le jeu de données WSJ0-2Mix, tout en étant plus rapide à l'inférence et comparable en termes de consommation mémoire.