Amélioration de la parole monaurale avec un module d'attention à blocs de convolution complexe et des pertes conjointes temps-fréquence

La structure profonde en U-Net complexe et la structure de réseau convolutif récurrent (CRN) atteignent des performances de pointe pour l’amélioration de la parole monophonique. À la fois le deep complex U-Net et le CRN sont des architectures à encodeur-décodeur dotées de connexions de saut, et reposent fortement sur la puissance de représentation des couches convolutives à valeurs complexes. Dans cet article, nous proposons un module d’attention à bloc convolutif complexe (CCBAM) afin d’améliorer la puissance de représentation des couches convolutives à valeurs complexes en construisant des caractéristiques plus informatives. Le CCBAM est un module léger et généralisable, facilement intégrable à toute couche convolutive à valeurs complexes. Nous intégrons le CCBAM au deep complex U-Net et au CRN afin d’améliorer leurs performances dans le cadre de l’amélioration de la parole. Nous proposons également une fonction de perte mixte pour optimiser conjointement les modèles complexes dans le domaine temps-fréquence (TF) et dans le domaine temporel. En combinant le CCBAM et la fonction de perte mixte, nous établissons un nouveau cadre d’amélioration de la parole complexe en bout-à-bout (E2E). Des expériences d’ablation et des évaluations objectives démontrent les performances supérieures des approches proposées (https://github.com/modelscope/ClearerVoice-Studio).