Amélioration de la séparation de locuteurs à nombre inconnu grâce à un décodeur Transformer basé sur un attracteur

Nous proposons un nouveau modèle de séparation de parole conçu pour traiter des mélanges comportant un nombre inconnu de locuteurs. Le modèle proposé repose sur trois composants clés : 1) un bloc de traitement dual qui permet de modéliser les motifs spectro-temporels, 2) un module de calcul d’attracteurs basé sur un décodeur Transformer (TDA, Transformer Decoder-based Attractor), capable de gérer un nombre inconnu de locuteurs, et 3) des blocs de traitement triplés permettant de modéliser les relations entre locuteurs. À partir d’un ensemble fixe et réduit de requêtes d’locuteurs apprises et de l’encodage du mélange fourni par les blocs de traitement dual, le TDA infère les relations entre ces requêtes et génère un vecteur attracteur pour chaque locuteur. Ces attracteurs estimés sont ensuite combinés avec l’encodage du mélange via une modulation linéaire par caractéristique conditionnée, ce qui permet de créer une dimension speaker. L’encodage du mélange, conditionné par les informations de locuteur produites par le TDA, est ensuite alimenté dans les blocs triplés finalisés, qui enrichissent les blocs duals par un chemin supplémentaire dédié au traitement inter-locuteur. L’approche proposée surpasser les résultats précédemment rapportés dans la littérature, atteignant des améliorations de 24,0 dB et 23,7 dB en SI-SDR (SI-SDRi) sur les jeux de données WSJ0-2 et 3mix respectivement, avec un seul modèle entraîné pour séparer des mélanges à 2 ou 3 locuteurs. Le modèle proposé démontre également une performance solide et une bonne généralisation dans la détection du nombre de sources ainsi que dans la séparation de mélanges comprenant jusqu’à 5 locuteurs.