HyperAIHyperAI
il y a 15 jours

MossFormer : Dépasser la limite de performance de la séparation de parole monaurale en utilisant un Transformer à tête unique à gated avec des auto-attentions conjointes renforcées par convolution

Shengkui Zhao, Bin Ma
MossFormer : Dépasser la limite de performance de la séparation de parole monaurale en utilisant un Transformer à tête unique à gated avec des auto-attentions conjointes renforcées par convolution
Résumé

Les modèles basés sur les transformateurs ont permis des améliorations significatives en matière de séparation de parole monaurale. Toutefois, un écart de performance subsiste par rapport à une borne supérieure récemment proposée. La principale limitation des modèles actuels à double parcours (dual-path) basés sur les transformateurs réside dans une modélisation inefficace des interactions à longue portée entre éléments et des motifs locaux de caractéristiques. Dans ce travail, nous atteignons cette borne supérieure en proposant une architecture de transformateur à tête unique à gating, enrichie par des attentions auto-associatives conjointes à convolution, nommée \textit{MossFormer} (\textit{Mo}naural \textit{s}peech \textit{s}eparation Trans\textit{Former}). Pour résoudre efficacement les interactions indirectes entre éléments à travers les blocs dans l’architecture à double parcours, MossFormer adopte une architecture d’attention conjointe locale et globale, qui réalise simultanément une attention auto-associative complète sur des blocs locaux et une attention auto-associative linéarisée à faible coût sur toute la séquence. Cette attention conjointe permet au modèle MossFormer d’assurer directement des interactions élémentaires sur toute la séquence. En outre, nous introduisons un mécanisme de gating attentif puissant associé à des attentions auto-associatives à tête unique simplifiées. Par ailleurs, afin de renforcer la modélisation des motifs locaux en position, nous enrichissons MossFormer par des opérations de convolution. En conséquence, MossFormer surpasse significativement les modèles précédents et atteint des résultats de pointe sur les benchmarks WSJ0-2/3mix et WHAM!/WHAMR!. Notre modèle atteint la borne supérieure de SI-SDRi à 21,2 dB sur WSJ0-3mix, et se situe à seulement 0,3 dB de la borne supérieure de 23,1 dB sur WSJ0-2mix.

MossFormer : Dépasser la limite de performance de la séparation de parole monaurale en utilisant un Transformer à tête unique à gated avec des auto-attentions conjointes renforcées par convolution | Articles de recherche récents | HyperAI