Dénouaison et déréverbération vocale monocouche sensible à la phase avec U-Net

Dans ce travail, nous abordons le problème de suppression de bruit et de suppression de réverbération à l’aide d’un cadre à une seule étape. Bien que la suppression de bruit et la suppression de réverbération constituent deux tâches distinctes et difficiles, nécessitant généralement deux modules séparés, nous démontrons qu’un seul réseau profond peut être partagé pour résoudre ces deux problèmes. À cette fin, nous proposons une nouvelle méthode de masquage appelée masque bêta-sigmoïde sensible à la phase (PHM, phase-aware beta-sigmoid mask), qui réutilise les valeurs estimées de magnitude pour estimer la phase propre en respectant l’inégalité triangulaire dans le domaine complexe entre trois composantes de signal : le mélange, la source et le reste. Deux PHMs sont utilisés pour traiter respectivement la source directe et la source réverbérée, permettant ainsi de contrôler, au moment de l’inférence, la proportion de réverbération dans le signal vocal amélioré. En outre, pour améliorer les performances de renforcement vocal, nous introduisons une nouvelle fonction de perte en domaine temporel et montrons un gain raisonnable par rapport à la perte MSE dans le domaine complexe. Enfin, afin d’assurer une inférence en temps réel, nous proposons une stratégie d’optimisation pour le réseau U-Net, réduisant significativement la charge computationnelle jusqu’à 88,9 % par rapport à la version naïve.