HyperAIHyperAI
il y a 17 jours

Une investigation sur l'intégration de Mamba pour l'amélioration de la parole

Rong Chao, Wen-Huang Cheng, Moreno La Quatra, Sabato Marco Siniscalchi, Chao-Han Huck Yang, Szu-Wei Fu, Yu Tsao
Une investigation sur l'intégration de Mamba pour l'amélioration de la parole
Résumé

Ce travail vise à étudier un modèle à espace d’état (SSM) évolutif, appelé Mamba, pour la tâche d’amélioration de la parole (SE). Nous exploitons un modèle de régression basé sur Mamba afin de caractériser les signaux vocaux et construisons un système d’amélioration de la parole fondé sur Mamba, désigné sous le nom de SEMamba. Nous examinons les propriétés de Mamba en l’intégrant comme modèle central dans des systèmes SE de base et avancés, en combinant des distances au niveau du signal avec des fonctions de perte orientées vers des métriques perceptuelles. SEMamba obtient des résultats prometteurs, atteignant un score PESQ de 3,55 sur le jeu de données VoiceBank-DEMAND. Lorsqu’il est combiné avec la technique de contraste perceptuel d’étirement, le SEMamba proposé établit un nouveau record d’état de l’art avec un score PESQ de 3,69.