HyperAIHyperAI

Command Palette

Search for a command to run...

TS-SEP : Diarisation et séparation conjointes conditionnées sur des embeddings de locuteurs estimés

Christoph Boeddeker Aswin Shanmugam Subramanian Gordon Wichern Reinhold Haeb-Umbach Jonathan Le Roux

Résumé

Étant donné que la diarisation et la séparation des sources dans les données de réunions sont des tâches étroitement liées, nous proposons ici une approche visant à traiter ces deux objectifs conjointement. Cette méthode s’appuie sur l’approche de diarisation par détection de l’activité vocale du locuteur cible (TS-VAD), qui suppose que des embeddings initiaux des locuteurs sont disponibles. Nous remplaçons le réseau final d’estimation combinée de l’activité des locuteurs utilisé dans TS-VAD par un réseau capable de produire des estimations d’activité des locuteurs à une résolution temps-fréquence. Ces estimations servent alors de masques pour l’extraction des sources, qu’elles soient réalisées par masquage ou par beamforming. La technique est applicable aussi bien aux entrées mono-canal qu’aux entrées multi-canaux, et atteint, dans les deux cas, un nouveau record d’erreur de mot (WER) sur la tâche de reconnaissance des réunions du corpus LibriCSS. Nous calculons également des WER orientés vers le locuteur (speaker-aware) et indépendants du locuteur (speaker-agnostic), afin d’isoler la contribution des erreurs de diarisation sur la performance globale du WER.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp