FullSubNet+ : FullSubNet à atténuation par canal avec spectrogrammes complexes pour l’amélioration de la parole

Le modèle FullSubNet précédemment proposé a obtenu des performances remarquables au défi de suppression de bruit profond (DNS) et a suscité un grand intérêt. Toutefois, il reste sujet à des problèmes tels qu’un désalignement entre entrée et sortie, ainsi qu’un traitement trop grossier des bandes de fréquence. Dans ce travail, nous proposons un cadre étendu pour l’amélioration en temps réel du signal vocal mono-canal, appelé FullSubNet+, intégrant plusieurs améliorations significatives. Premièrement, nous avons conçu un module léger à attention canal sensible au temps à plusieurs échelles (MulCA), qui combine convolution à plusieurs échelles et mécanisme d’attention sur les canaux afin d’aider le réseau à se concentrer sur les bandes de fréquence les plus discriminantes pour la suppression du bruit. Ensuite, afin d’exploiter pleinement les informations de phase présentes dans le signal bruité, notre modèle prend en entrée l’ensemble des spectrogrammes de module, partie réelle et partie imaginaire. En outre, en remplaçant les couches de mémoire à long terme et court terme (LSTM) du modèle original sur toute la bande par des blocs empilés de réseaux de convolution temporelle (TCN), nous avons conçu un module plus efficace sur toute la bande, appelé extracteur de bande complète. Les résultats expérimentaux sur le jeu de données du défi DNS démontrent la performance supérieure de notre FullSubNet+, qui atteint un état de l’art (SOTA) et surpasser les approches existantes d’amélioration du signal vocal.