HyperAIHyperAI

Command Palette

Search for a command to run...

Diarisation de locuteur pleinement supervisée

Aonan Zhang Quan Wang Zhenyao Zhu John Paisley Chong Wang

Résumé

Dans cet article, nous proposons une approche de diarisation de locuteurs entièrement supervisée, nommée réseaux neuronaux récurrents à états entrelacés non bornés (UISRNN). À partir des embeddings discriminants de locuteurs (également appelés d-vectors) extraits des énoncés d'entrée, chaque locuteur individuel est modélisé par un RNN partageant les paramètres, tandis que les états RNN de différents locuteurs s'entrelacent dans le domaine temporel. Ce RNN est naturellement intégré à un processus de restaurant chinois dépendant de la distance (ddCRP) pour accueillir un nombre inconnu de locuteurs. Notre système est entièrement supervisé et capable d'apprendre à partir d'exemples où les étiquettes de locuteurs horodatées sont annotées. Nous avons obtenu un taux d'erreur de diarisation de 7,6 % sur le corpus NIST SRE 2000 CALLHOME, ce qui est meilleur que la méthode actuelle utilisant le clustering spectral. De plus, notre méthode décode en mode en ligne alors que la plupart des systèmes d'avant-garde reposent sur un clustering hors ligne.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp