TS-SEP : Diarisation et séparation conjointes conditionnées sur des embeddings de locuteurs estimés

Étant donné que la diarisation et la séparation des sources dans les données de réunions sont des tâches étroitement liées, nous proposons ici une approche visant à traiter ces deux objectifs conjointement. Cette méthode s’appuie sur l’approche de diarisation par détection de l’activité vocale du locuteur cible (TS-VAD), qui suppose que des embeddings initiaux des locuteurs sont disponibles. Nous remplaçons le réseau final d’estimation combinée de l’activité des locuteurs utilisé dans TS-VAD par un réseau capable de produire des estimations d’activité des locuteurs à une résolution temps-fréquence. Ces estimations servent alors de masques pour l’extraction des sources, qu’elles soient réalisées par masquage ou par beamforming. La technique est applicable aussi bien aux entrées mono-canal qu’aux entrées multi-canaux, et atteint, dans les deux cas, un nouveau record d’erreur de mot (WER) sur la tâche de reconnaissance des réunions du corpus LibriCSS. Nous calculons également des WER orientés vers le locuteur (speaker-aware) et indépendants du locuteur (speaker-agnostic), afin d’isoler la contribution des erreurs de diarisation sur la performance globale du WER.