HyperAIHyperAI
il y a 15 jours

SPGM : Prioriser les caractéristiques locales pour améliorer les performances de séparation de parole

Jia Qi Yip, Shengkui Zhao, Yukun Ma, Chongjia Ni, Chong Zhang, Hao Wang, Trung Hieu Nguyen, Kun Zhou, Dianwen Ng, Eng Siong Chng, Bin Ma
SPGM : Prioriser les caractéristiques locales pour améliorer les performances de séparation de parole
Résumé

L’architecture à double chemin est couramment utilisée dans les modèles de séparation de parole (par exemple, Sepformer), qui divise les séquences longues en tronçons chevauchants afin de modéliser séparément, au sein des blocs intra et inter, les caractéristiques locales à l’intérieur de chaque tronçon et les relations globales entre tronçons. Toutefois, il a été observé que les blocs inter, qui représentent la moitié des paramètres d’un modèle à double chemin, contribuent très peu à la performance globale. Ainsi, nous proposons le bloc de modulation globale à chemin unique (SPGM) afin de remplacer les blocs inter. Le nom SPGM reflète sa structure, composée d’un module de pooling global sans paramètre, suivi d’un module de modulation qui ne représente que 2 % des paramètres totaux du modèle. Le bloc SPGM permet à toutes les couches Transformer du modèle de se concentrer exclusivement sur la modélisation des caractéristiques locales, rendant ainsi l’ensemble du modèle à chemin unique. Le SPGM atteint un score de 22,1 dB en SI-SDRi sur WSJ0-2Mix et 20,4 dB sur Libri2Mix, dépassant les performances de Sepformer de 0,5 dB et 0,3 dB respectivement, tout en égalant celles des modèles les plus récents de l’état de l’art, avec jusqu’à huit fois moins de paramètres. Le modèle et ses poids sont disponibles sur huggingface.co/yipjiaqi/spgm.

SPGM : Prioriser les caractéristiques locales pour améliorer les performances de séparation de parole | Articles de recherche récents | HyperAI