HyperAIHyperAI

Command Palette

Search for a command to run...

Diarisation des locuteurs avec LSTM

Author1 Author2

Résumé

Pendant de nombreuses années, les techniques d'embedding audio basées sur les i-vecteurs ont été la principale approche pour les applications de vérification et de diarisation des locuteurs. Cependant, en parallèle de l'essor de l'apprentissage profond dans divers domaines, les embeddings audio basés sur les réseaux neuronaux, également connus sous le nom de d-vecteurs, ont constamment démontré une meilleure performance en vérification des locuteurs. Dans cet article, nous nous appuyons sur le succès des systèmes de vérification des locuteurs basés sur les d-vecteurs pour développer une nouvelle approche de diarisation des locuteurs fondée sur les d-vecteurs. Plus précisément, nous combinons les embeddings audio d-vecteurs basés sur les LSTM avec des travaux récents en clustering non paramétrique afin d'obtenir un système de diarisation des locuteurs à la pointe de la technologie. Notre système est évalué sur trois jeux de données publics standards, suggérant que les systèmes de diarisation basés sur les d-vecteurs offrent des avantages significatifs par rapport aux systèmes traditionnels basés sur les i-vecteurs. Nous avons obtenu un taux d'erreur de diarisation de 12,0 % sur NIST SRE 2000 CALLHOME, alors que notre modèle est formé avec des données hors domaine issues des journaux de recherche vocale.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp