Modélisation interactive de la parole et du bruit pour l’amélioration de la parole

L’amélioration de la parole est un défi en raison de la diversité des types de bruit ambiant. La plupart des méthodes existantes se concentrent sur la modélisation de la parole plutôt que sur celle du bruit. Dans cet article, nous proposons une nouvelle approche visant à modéliser simultanément la parole et le bruit au sein d’un réseau de neurones convolutif à deux branches, nommé SN-Net. Dans SN-Net, les deux branches prédise respectivement la parole et le bruit. Contrairement à une fusion d’informations limitée à la couche de sortie finale, des modules d’interaction sont introduits à plusieurs niveaux intermédiaires des représentations features entre les deux branches, afin de favoriser leur complémentarité. Cette interaction permet d’exploiter les caractéristiques apprises par une branche pour atténuer les composantes indésirables et restaurer les éléments manquants de l’autre, améliorant ainsi leur capacité de discrimination. Nous avons également conçu un module d’extraction de caractéristiques, appelé résiduel-convolution-attention (RA), destiné à capturer les corrélations le long des dimensions temporelle et fréquentielle, tant pour la parole que pour le bruit. Les évaluations sur des jeux de données publics montrent que le module d’interaction joue un rôle clé dans la modélisation simultanée, et que SN-Net surpasser considérablement les méthodes de pointe sur diverses métriques d’évaluation. Le modèle proposé SN-Net démontre également des performances supérieures dans la séparation des locuteurs.