il y a 2 mois

WHAM! : Étendre la séparation de la parole aux environnements bruyants

Gordon Wichern; Joe Antognini; Michael Flynn; Licheng Richard Zhu; Emmett McQuinn; Dwight Crow; Ethan Manilow; Jonathan Le Roux

Voir les détails de l'article

WHAM! : Étendre la séparation de la parole aux environnements bruyants

Résumé

Les progrès récents dans la séparation des signaux vocaux de plusieurs locuteurs superposés à l'aide d'un seul canal audio nous ont rapprochés de la résolution du problème du cocktail party. Cependant, la plupart des études dans ce domaine utilisent une configuration de problème contrainte, en comparant les performances lorsque les locuteurs se chevauchent presque complètement, à des taux d'échantillonnage artificiellement bas et sans bruit de fond externe. Dans cet article, nous visons à faire évoluer le domaine vers des scénarios plus réalistes et plus complexes. À cette fin, nous avons créé le jeu de données WSJ0 Hipster Ambient Mixtures (WHAM!), composé de mélanges de deux locuteurs provenant du jeu de données wsj0-2mix combinés avec des échantillons de bruit ambiant réel. Ces échantillons ont été collectés dans des cafés, des restaurants et des bars de la région de la baie de San Francisco et sont mis à disposition du public. Nous évaluons diverses architectures de séparation vocale et fonctions objectifs pour mesurer leur robustesse face au bruit. Bien que les performances de séparation diminuent en raison du bruit, nous constatons encore des gains substantiels par rapport aux signaux bruyants pour la plupart des approches.