Un réseau de neurones sans masque pour l'amélioration de parole monaurale

Dans le domaine du renforcement vocal, le manque de caractéristiques structurelles claires dans la phase du signal vocal cible rend nécessaire l’utilisation de cadres de réseaux conservateurs et lourds. Il semble difficile d’obtenir des performances compétitives à l’aide de méthodes directes et d’architectures de réseaux simples. Toutefois, nous proposons MFNet, un réseau direct et simple capable non seulement de mapper le signal vocal, mais également de mapper le bruit inverse. Ce réseau est construit en empilant des blocs globaux locaux (GLFBs), qui combinent les avantages du Mobileblock pour le traitement global et de l’architecture Metaformer pour les interactions locales. Nos résultats expérimentaux démontrent que notre réseau utilisant une méthode de mapping surpasser les méthodes de masquage, et que le mapping direct du bruit inverse constitue la solution optimale dans des environnements à fort niveau de bruit. Dans une comparaison horizontale sur l’ensemble de test du défi Deep Noise Suppression (DNS) 2020, sans réverbération, à ce jour, MFNet est le modèle de mapping actuellement le plus performant (SOTA).