HyperAIHyperAI
il y a 2 mois

SpEx+: Un Réseau de Neurones Complet pour l’Extraction Temporelle des Parleurs

Meng Ge; Chenglin Xu; Longbiao Wang; Eng Siong Chng; Jianwu Dang; Haizhou Li
SpEx+: Un Réseau de Neurones Complet pour l’Extraction Temporelle des Parleurs
Résumé

L'extraction de locuteur vise à extraire le signal vocal cible d'un environnement avec plusieurs interlocuteurs en se basant sur un échantillon de référence du locuteur cible. Nous avons récemment proposé une solution dans le domaine temporel, SpEx, qui évite l'estimation de la phase utilisée dans les approches dans le domaine fréquentiel. Cependant, SpEx n'est pas entièrement une solution dans le domaine temporel car elle effectue l'encodage vocal dans le domaine temporel pour l'extraction de locuteur, tout en utilisant l'empreinte vocale du locuteur dans le domaine fréquentiel comme référence. De plus, la taille de la fenêtre d'analyse dans le domaine temporel et celle de l'entrée dans le domaine fréquentiel sont différentes. Cette incompatibilité a un effet négatif sur les performances du système. Pour éliminer cette incompatibilité, nous proposons une solution complète d'extraction de locuteur dans le domaine temporel, appelée SpEx+. Plus précisément, nous associons les poids de deux réseaux d'encodeurs vocaux identiques : l'un pour la chaîne encodeur-extracteur-décodeur (encoder-extractor-decoder pipeline), et l'autre faisant partie de l'encodeur de locuteur. Les expériences montrent que SpEx+ améliore respectivement les rapports signal-distorsion-résidu (SDR) de 0,8 dB et 2,1 dB par rapport à la solution SpEx de référence actuelle, sous des conditions de genres différents et identiques sur la base de données WSJ0-2mix-extr.

SpEx+: Un Réseau de Neurones Complet pour l’Extraction Temporelle des Parleurs | Articles de recherche récents | HyperAI