HyperAIHyperAI

Command Palette

Search for a command to run...

xLSTM-SENet : xLSTM pour l’amélioration de la parole monocanal

Nikolai Lund Kühne Jan Østergaard Jesper Jensen Zheng-Hua Tan

Résumé

Bien que les architectures basées sur l'attention, telles que les Conformers, excellent dans l'amélioration de la parole, elles font face à des défis tels que la scalabilité en fonction de la longueur de la séquence d'entrée. En revanche, l'architecture Extended Long Short-Term Memory (xLSTM), récemment proposée, offre une scalabilité linéaire. Cependant, les modèles basés sur xLSTM n'ont pas encore été explorés pour l'amélioration de la parole. Cet article introduit xLSTM-SENet, le premier système d'amélioration de la parole monocanal basé sur xLSTM. Une analyse comparative révèle que les modèles basés sur xLSTM — et notablement même ceux basés sur LSTM — peuvent égaler ou surpasser les systèmes d'avant-garde basés sur Mamba et Conformer, dans diverses tailles de modèles, pour l'amélioration de la parole sur le jeu de données VoiceBank+Demand. Grâce à des études par élimination progressive (ablation studies), nous identifions des choix clés de conception architecturale tels que le portage exponentiel et la bidirectionnalité qui contribuent à son efficacité. Notre meilleur modèle basé sur xLSTM, xLSTM-SENet2, surpasses les systèmes d'avant-garde basés sur Mamba et Conformer de complexité similaire sur le jeu de données VoiceBank+DEMAND.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp