xLSTM-SENet : xLSTM pour l’amélioration de la parole monocanal

Bien que les architectures basées sur l'attention, telles que les Conformers, excellent dans l'amélioration de la parole, elles font face à des défis tels que la scalabilité en fonction de la longueur de la séquence d'entrée. En revanche, l'architecture Extended Long Short-Term Memory (xLSTM), récemment proposée, offre une scalabilité linéaire. Cependant, les modèles basés sur xLSTM n'ont pas encore été explorés pour l'amélioration de la parole. Cet article introduit xLSTM-SENet, le premier système d'amélioration de la parole monocanal basé sur xLSTM. Une analyse comparative révèle que les modèles basés sur xLSTM — et notablement même ceux basés sur LSTM — peuvent égaler ou surpasser les systèmes d'avant-garde basés sur Mamba et Conformer, dans diverses tailles de modèles, pour l'amélioration de la parole sur le jeu de données VoiceBank+Demand. Grâce à des études par élimination progressive (ablation studies), nous identifions des choix clés de conception architecturale tels que le portage exponentiel et la bidirectionnalité qui contribuent à son efficacité. Notre meilleur modèle basé sur xLSTM, xLSTM-SENet2, surpasses les systèmes d'avant-garde basés sur Mamba et Conformer de complexité similaire sur le jeu de données VoiceBank+DEMAND.