il y a 8 mois

Résumé

L'extraction de locuteur vise à extraire le signal vocal cible d'un environnement avec plusieurs interlocuteurs en se basant sur un échantillon de référence du locuteur cible. Nous avons récemment proposé une solution dans le domaine temporel, SpEx, qui évite l'estimation de la phase utilisée dans les approches dans le domaine fréquentiel. Cependant, SpEx n'est pas entièrement une solution dans le domaine temporel car elle effectue l'encodage vocal dans le domaine temporel pour l'extraction de locuteur, tout en utilisant l'empreinte vocale du locuteur dans le domaine fréquentiel comme référence. De plus, la taille de la fenêtre d'analyse dans le domaine temporel et celle de l'entrée dans le domaine fréquentiel sont différentes. Cette incompatibilité a un effet négatif sur les performances du système. Pour éliminer cette incompatibilité, nous proposons une solution complète d'extraction de locuteur dans le domaine temporel, appelée SpEx+. Plus précisément, nous associons les poids de deux réseaux d'encodeurs vocaux identiques : l'un pour la chaîne encodeur-extracteur-décodeur (encoder-extractor-decoder pipeline), et l'autre faisant partie de l'encodeur de locuteur. Les expériences montrent que SpEx+ améliore respectivement les rapports signal-distorsion-résidu (SDR) de 0,8 dB et 2,1 dB par rapport à la solution SpEx de référence actuelle, sous des conditions de genres différents et identiques sur la base de données WSJ0-2mix-extr.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Traitement Audio Et Vocal

Réseau De Neurones Convolutif

Apprentissage Multi-tâches

Approche/Framework

Audio

Tâche

Meng Ge; Chenglin Xu; Longbiao Wang; Eng Siong Chng; Jianwu Dang; Haizhou Li

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Traitement Audio Et Vocal

Réseau De Neurones Convolutif

Apprentissage Multi-tâches

Approche/Framework

Audio

Tâche

Meng Ge; Chenglin Xu; Longbiao Wang; Eng Siong Chng; Jianwu Dang; Haizhou Li

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

SpEx+: Un Réseau de Neurones Complet pour l’Extraction Temporelle des Parleurs | Articles | HyperAI

Command Palette

SpEx+: Un Réseau de Neurones Complet pour l’Extraction Temporelle des Parleurs

Meng Ge; Chenglin Xu; Longbiao Wang; Eng Siong Chng; Jianwu Dang; Haizhou Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SpEx+: Un Réseau de Neurones Complet pour l’Extraction Temporelle des Parleurs

Meng Ge; Chenglin Xu; Longbiao Wang; Eng Siong Chng; Jianwu Dang; Haizhou Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SpEx+: Un Réseau de Neurones Complet pour l’Extraction Temporelle des Parleurs

Meng Ge; Chenglin Xu; Longbiao Wang; Eng Siong Chng; Jianwu Dang; Haizhou Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters