HyperAIHyperAI

Command Palette

Search for a command to run...

Diarisation parlant neurale bout-en-bout avec des objectifs sans permutation

Yusuke Fujita Naoyuki Kanda Shota Horiguchi Kenji Nagamatsu Shinji Watanabe

Résumé

Dans cet article, nous proposons une nouvelle méthode de diarisation des locuteurs basée sur un réseau de neurones entièrement end-to-end. Contrairement à la plupart des méthodes existantes, notre approche ne comporte pas de modules distincts pour l'extraction et le regroupement des représentations des locuteurs. À la place, notre modèle repose sur un seul réseau de neurones qui produit directement les résultats de diarisation. Pour réaliser un tel modèle, nous formulons le problème de diarisation comme un problème de classification multi-étiquettes, et introduisons une fonction objectif sans permutation afin de minimiser directement les erreurs de diarisation, sans être affecté par le problème de permutation des étiquettes des locuteurs. En plus de sa simplicité end-to-end, la méthode proposée présente l’avantage d’être capable de gérer explicitement les interactions vocales superposées durant l’entraînement et l’inférence. Grâce à cet avantage, notre modèle peut être facilement entraîné ou adapté à des conversations réelles à plusieurs locuteurs en n’ayant besoin que d’alimenter les étiquettes correspondantes des segments à plusieurs locuteurs. Nous avons évalué la méthode proposée sur des mélanges de paroles simulés. Le taux d’erreur de diarisation atteint 12,28 %, contre 28,77 % pour un système classique basé sur le regroupement. De plus, l’adaptation au domaine à l’aide de paroles enregistrées réellement a permis une amélioration relative de 25,6 % sur le jeu de données CALLHOME. Le code source est disponible en ligne à l’adresse suivante : https://github.com/hitachi-speech/EEND.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp