HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de la séparation de locuteurs à nombre inconnu grâce à un décodeur Transformer basé sur un attracteur

Younglo Lee Shukjae Choi Byeong-Yeol Kim Zhong-Qiu Wang Shinji Watanabe

Résumé

Nous proposons un nouveau modèle de séparation de parole conçu pour traiter des mélanges comportant un nombre inconnu de locuteurs. Le modèle proposé repose sur trois composants clés : 1) un bloc de traitement dual qui permet de modéliser les motifs spectro-temporels, 2) un module de calcul d’attracteurs basé sur un décodeur Transformer (TDA, Transformer Decoder-based Attractor), capable de gérer un nombre inconnu de locuteurs, et 3) des blocs de traitement triplés permettant de modéliser les relations entre locuteurs. À partir d’un ensemble fixe et réduit de requêtes d’locuteurs apprises et de l’encodage du mélange fourni par les blocs de traitement dual, le TDA infère les relations entre ces requêtes et génère un vecteur attracteur pour chaque locuteur. Ces attracteurs estimés sont ensuite combinés avec l’encodage du mélange via une modulation linéaire par caractéristique conditionnée, ce qui permet de créer une dimension speaker. L’encodage du mélange, conditionné par les informations de locuteur produites par le TDA, est ensuite alimenté dans les blocs triplés finalisés, qui enrichissent les blocs duals par un chemin supplémentaire dédié au traitement inter-locuteur. L’approche proposée surpasser les résultats précédemment rapportés dans la littérature, atteignant des améliorations de 24,0 dB et 23,7 dB en SI-SDR (SI-SDRi) sur les jeux de données WSJ0-2 et 3mix respectivement, avec un seul modèle entraîné pour séparer des mélanges à 2 ou 3 locuteurs. Le modèle proposé démontre également une performance solide et une bonne généralisation dans la détection du nombre de sources ainsi que dans la séparation de mélanges comprenant jusqu’à 5 locuteurs.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp