il y a 15 jours

L’attention, c’est tout ce dont vous avez besoin pour la séparation vocale

Cem Subakan, Mirco Ravanelli, Samuele Cornell, Mirko Bronzi, Jianyuan Zhong

Résumé

Les réseaux de neurones récurrents (RNN) ont longtemps été l'architecture dominante dans l'apprentissage séquence-à-séquence. Toutefois, les RNN sont intrinsèquement des modèles séquentiels, ce qui empêche la parallélisation de leurs calculs. Les Transformers émergent comme une alternative naturelle aux RNN standards, en remplaçant les calculs récurrents par un mécanisme d'attention à plusieurs têtes. Dans ce travail, nous proposons le SepFormer, un nouveau réseau neuronal basé sur les Transformers et libre de RNN, dédié à la séparation de paroles. Le SepFormer apprend les dépendances à court et à long terme grâce à une approche multi-échelle utilisant des Transformers. Le modèle proposé atteint des performances de pointe (SOTA) sur les jeux de données standards WSJ0-2mix et WSJ0-3mix, obtenant un SI-SNRi de 22,3 dB sur WSJ0-2mix et un SI-SNRi de 19,5 dB sur WSJ0-3mix. Le SepFormer hérite des avantages de parallélisation des Transformers et parvient à des performances compétitives même lorsque la représentation encodée est sous-échantillonnée d’un facteur 8. Il est ainsi significativement plus rapide et moins exigeant en mémoire que les systèmes les plus récents de séparation de paroles offrant des performances comparables.