HyperAIHyperAI
il y a 3 mois

FullSubNet : un modèle de fusion bande complète et sous-bande pour l'amélioration en temps réel de la parole mono-canal

Xiang Hao, Xiangdong Su, Radu Horaud, Xiaofei Li
FullSubNet : un modèle de fusion bande complète et sous-bande pour l'amélioration en temps réel de la parole mono-canal
Résumé

Cet article propose un modèle de fusion à large bande et à sous-bande, nommé FullSubNet, pour l’amélioration en temps réel du parle unique à canal unique. Les termes « large bande » et « sous-bande » désignent respectivement les modèles qui reçoivent en entrée des caractéristiques spectrales bruitées sur toute la largeur de bande ou sur des sous-bandes, et produisent en sortie des cibles de parole nette correspondantes à la large bande ou aux sous-bandes. Le modèle à sous-bande traite chaque fréquence de manière indépendante. Son entrée est constituée d’une fréquence cible et de plusieurs fréquences contextuelles voisines, tandis que sa sortie correspond à la prédiction de la parole nette pour cette fréquence spécifique. Ces deux types de modèles présentent des caractéristiques distinctes : le modèle à large bande est capable de capturer le contexte spectral global et les dépendances à longue distance entre bandes, mais il manque de capacité à modéliser la stationnarité du signal et à s’attarder sur les motifs spectraux locaux. À l’inverse, le modèle à sous-bande excelle dans ces aspects. Dans le FullSubNet proposé, nous connectons séquentiellement un modèle pur à large bande et un modèle pur à sous-bande, et utilisons un entraînement conjoint pratique pour intégrer les avantages de ces deux approches. Des expériences ont été menées sur le jeu de données du DNS Challenge (INTERSPEECH 2020) afin d’évaluer la méthode proposée. Les résultats expérimentaux montrent que les informations à large bande et à sous-bande sont complémentaires, et que FullSubNet peut les intégrer efficacement. En outre, les performances du FullSubNet dépassent celles des méthodes classées en tête du DNS Challenge (INTERSPEECH 2020).