HyperAIHyperAI
il y a 2 mois

Diarisation des locuteurs avec LSTM

Quan Wang; Carlton Downey; Li Wan; Philip Andrew Mansfield; Ignacio Lopez Moreno
Diarisation des locuteurs avec LSTM
Résumé

Pendant de nombreuses années, les techniques d'embedding audio basées sur les i-vecteurs ont été la principale approche pour les applications de vérification et de diarisation des locuteurs. Cependant, en parallèle de l'essor de l'apprentissage profond dans divers domaines, les embeddings audio basés sur les réseaux neuronaux, également connus sous le nom de d-vecteurs, ont constamment démontré une meilleure performance en vérification des locuteurs. Dans cet article, nous nous appuyons sur le succès des systèmes de vérification des locuteurs basés sur les d-vecteurs pour développer une nouvelle approche de diarisation des locuteurs fondée sur les d-vecteurs. Plus précisément, nous combinons les embeddings audio d-vecteurs basés sur les LSTM avec des travaux récents en clustering non paramétrique afin d'obtenir un système de diarisation des locuteurs à la pointe de la technologie. Notre système est évalué sur trois jeux de données publics standards, suggérant que les systèmes de diarisation basés sur les d-vecteurs offrent des avantages significatifs par rapport aux systèmes traditionnels basés sur les i-vecteurs. Nous avons obtenu un taux d'erreur de diarisation de 12,0 % sur NIST SRE 2000 CALLHOME, alors que notre modèle est formé avec des données hors domaine issues des journaux de recherche vocale.

Diarisation des locuteurs avec LSTM | Articles de recherche récents | HyperAI