HyperAIHyperAI
il y a un mois

Diarisation de locuteur pleinement supervisée

Aonan Zhang; Quan Wang; Zhenyao Zhu; John Paisley; Chong Wang
Diarisation de locuteur pleinement supervisée
Résumé

Dans cet article, nous proposons une approche de diarisation de locuteurs entièrement supervisée, nommée réseaux neuronaux récurrents à états entrelacés non bornés (UISRNN). À partir des embeddings discriminants de locuteurs (également appelés d-vectors) extraits des énoncés d'entrée, chaque locuteur individuel est modélisé par un RNN partageant les paramètres, tandis que les états RNN de différents locuteurs s'entrelacent dans le domaine temporel. Ce RNN est naturellement intégré à un processus de restaurant chinois dépendant de la distance (ddCRP) pour accueillir un nombre inconnu de locuteurs. Notre système est entièrement supervisé et capable d'apprendre à partir d'exemples où les étiquettes de locuteurs horodatées sont annotées. Nous avons obtenu un taux d'erreur de diarisation de 7,6 % sur le corpus NIST SRE 2000 CALLHOME, ce qui est meilleur que la méthode actuelle utilisant le clustering spectral. De plus, notre méthode décode en mode en ligne alors que la plupart des systèmes d'avant-garde reposent sur un clustering hors ligne.

Diarisation de locuteur pleinement supervisée | Articles de recherche récents | HyperAI