il y a 17 jours

DCCRN : Réseau de convolution récurrente profond complexe pour l'amélioration de parole sensible à la phase

Yanxin Hu, Yun Liu, Shubo Lv, Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, Lei Xie

Résumé

L’amélioration de la parole a bénéficié du succès du deep learning en termes d’intelligibilité et de qualité perceptuelle. Les méthodes classiques dans le domaine temps-fréquence (TF) se concentrent sur la prédiction de masques TF ou du spectre de parole, à l’aide de réseaux de neurones convolutifs (CNN) ou récurrents (RNN) simples. Certaines études récentes utilisent un spectrogramme à valeurs complexes comme cible d’apprentissage, tout en entraînant un réseau à valeurs réelles, en prédisant séparément les composantes module et phase, ou partie réelle et partie imaginaire. En particulier, le réseau convolutif récurrent (CRN) intègre une architecture encodeur-décodeur convolutif (CED) et un mécanisme de mémoire à long et court terme (LSTM), démontrant une efficacité avérée pour des cibles complexes. Afin d’entraîner efficacement une cible complexe, nous proposons dans cet article une nouvelle architecture réseau simulant les opérations à valeurs complexes, nommée Deep Complex Convolution Recurrent Network (DCCRN), dans laquelle les structures CNN et RNN peuvent traiter directement des données à valeurs complexes. Les modèles DCCRN proposés s’avèrent très compétitifs par rapport aux réseaux précédents, tant sur les métriques objectives que subjectives. Avec seulement 3,7 millions de paramètres, les modèles DCCRN ont obtenu la première place sur la piste temps réel et la deuxième place sur la piste hors temps réel au défi Deep Noise Suppression (DNS) de l’Interspeech 2020, selon le score moyen d’opinion (MOS).