HyperAIHyperAI
il y a 15 jours

Sandglasset : Un réseau léger à attente auto-attentionnelle multi-granulaire pour la séparation de parole dans le domaine temporel

Max W. Y. Lam, Jun Wang, Dan Su, Dong Yu
Sandglasset : Un réseau léger à attente auto-attentionnelle multi-granulaire pour la séparation de parole dans le domaine temporel
Résumé

L’un des modèles leaders en séparation vocale mono-canal (SS) repose sur un TasNet utilisant une technique de segmentation à double parcours, dans lequel la taille de chaque segment reste constante à travers toutes les couches. En revanche, notre résultat principal révèle que les caractéristiques à plusieurs granularités sont essentielles pour améliorer le modèle contextuel ainsi que l’efficacité computationnelle. Nous proposons un réseau auto-attentif à une architecture originale en forme de sablier, nommé Sandglasset, qui atteint des performances de pointe (SOTA) en SS avec une taille de modèle et un coût computationnel significativement réduits. En parcourant chaque bloc de Sandglasset dans le sens avant, la granularité temporelle des caractéristiques devient progressivement plus grossière jusqu’à atteindre la moitié du réseau, puis elle s’affine successivement jusqu’au niveau du signal brut. Nous montrons également que les connexions résiduelles entre des caractéristiques de même granularité sont cruciales pour préserver l’information après le passage par la couche d’entonnoir. Les expériences montrent que notre Sandglasset, avec seulement 2,3 millions de paramètres, obtient les meilleurs résultats sur deux jeux de données standards en SS — WSJ0-2mix et WSJ0-3mix — avec une amélioration absolue de 0,8 dB et 2,4 dB respectivement sur le score SI-SNRi par rapport aux résultats SOTA antérieurs.

Sandglasset : Un réseau léger à attente auto-attentionnelle multi-granulaire pour la séparation de parole dans le domaine temporel | Articles de recherche récents | HyperAI