HyperAIHyperAI

Command Palette

Search for a command to run...

WHAM! : Étendre la séparation de la parole aux environnements bruyants

Gordon Wichern¹, Joe Antognini², Michael Flynn², Licheng Richard Zhu², Emmett McQuinn², Dwight Crow², Ethan Manilow¹, Jonathan Le Roux¹

Résumé

Les progrès récents dans la séparation des signaux vocaux de plusieurs locuteurs superposés à l'aide d'un seul canal audio nous ont rapprochés de la résolution du problème du cocktail party. Cependant, la plupart des études dans ce domaine utilisent une configuration de problème contrainte, en comparant les performances lorsque les locuteurs se chevauchent presque complètement, à des taux d'échantillonnage artificiellement bas et sans bruit de fond externe. Dans cet article, nous visons à faire évoluer le domaine vers des scénarios plus réalistes et plus complexes. À cette fin, nous avons créé le jeu de données WSJ0 Hipster Ambient Mixtures (WHAM!), composé de mélanges de deux locuteurs provenant du jeu de données wsj0-2mix combinés avec des échantillons de bruit ambiant réel. Ces échantillons ont été collectés dans des cafés, des restaurants et des bars de la région de la baie de San Francisco et sont mis à disposition du public. Nous évaluons diverses architectures de séparation vocale et fonctions objectifs pour mesurer leur robustesse face au bruit. Bien que les performances de séparation diminuent en raison du bruit, nous constatons encore des gains substantiels par rapport aux signaux bruyants pour la plupart des approches.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp