HyperAIHyperAI

Command Palette

Search for a command to run...

Sandglasset : Un réseau léger à attente auto-attentionnelle multi-granulaire pour la séparation de parole dans le domaine temporel

Max W. Y. Lam Jun Wang Dan Su Dong Yu

Résumé

L’un des modèles leaders en séparation vocale mono-canal (SS) repose sur un TasNet utilisant une technique de segmentation à double parcours, dans lequel la taille de chaque segment reste constante à travers toutes les couches. En revanche, notre résultat principal révèle que les caractéristiques à plusieurs granularités sont essentielles pour améliorer le modèle contextuel ainsi que l’efficacité computationnelle. Nous proposons un réseau auto-attentif à une architecture originale en forme de sablier, nommé Sandglasset, qui atteint des performances de pointe (SOTA) en SS avec une taille de modèle et un coût computationnel significativement réduits. En parcourant chaque bloc de Sandglasset dans le sens avant, la granularité temporelle des caractéristiques devient progressivement plus grossière jusqu’à atteindre la moitié du réseau, puis elle s’affine successivement jusqu’au niveau du signal brut. Nous montrons également que les connexions résiduelles entre des caractéristiques de même granularité sont cruciales pour préserver l’information après le passage par la couche d’entonnoir. Les expériences montrent que notre Sandglasset, avec seulement 2,3 millions de paramètres, obtient les meilleurs résultats sur deux jeux de données standards en SS — WSJ0-2mix et WSJ0-3mix — avec une amélioration absolue de 0,8 dB et 2,4 dB respectivement sur le score SI-SNRi par rapport aux résultats SOTA antérieurs.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Sandglasset : Un réseau léger à attente auto-attentionnelle multi-granulaire pour la séparation de parole dans le domaine temporel | Articles | HyperAI