Stirage de contraste perceptif sur la caractéristique cible pour l'amélioration de la parole

La performance de l’amélioration de la parole (SE) a considérablement progressé grâce à l’utilisation de modèles d’apprentissage profond comme fonction de base. Dans ce travail, nous proposons une méthode d’étirement du contraste perceptif (PCS, perceptual contrast stretching) visant à améliorer davantage la performance de la SE. La PCS est fondée sur la fonction d’importance des bandes critiques et est appliquée pour modifier les cibles du modèle de SE. Plus précisément, le contraste des caractéristiques cibles est étiré en fonction de leur importance perceptuelle, ce qui permet d’améliorer globalement la performance de la SE. Contrairement aux approches basées sur un post-traitement, l’intégration de la PCS dans la phase d’entraînement préserve la performance tout en réduisant la charge de calcul en ligne. Notamment, la PCS peut être combinée avec différentes architectures de modèles de SE et différents critères d’entraînement. De plus, la PCS n’affecte ni la causalité ni la convergence de l’entraînement du modèle de SE. Les résultats expérimentaux sur le jeu de données VoiceBank-DEMAND montrent que la méthode proposée atteint un état de l’art sur les tâches de SE causales (score PESQ = 3,07) et non causales (score PESQ = 3,35).