Diarisation parlant neurale bout-en-bout avec des objectifs sans permutation

Dans cet article, nous proposons une nouvelle méthode de diarisation des locuteurs basée sur un réseau de neurones entièrement end-to-end. Contrairement à la plupart des méthodes existantes, notre approche ne comporte pas de modules distincts pour l'extraction et le regroupement des représentations des locuteurs. À la place, notre modèle repose sur un seul réseau de neurones qui produit directement les résultats de diarisation. Pour réaliser un tel modèle, nous formulons le problème de diarisation comme un problème de classification multi-étiquettes, et introduisons une fonction objectif sans permutation afin de minimiser directement les erreurs de diarisation, sans être affecté par le problème de permutation des étiquettes des locuteurs. En plus de sa simplicité end-to-end, la méthode proposée présente l’avantage d’être capable de gérer explicitement les interactions vocales superposées durant l’entraînement et l’inférence. Grâce à cet avantage, notre modèle peut être facilement entraîné ou adapté à des conversations réelles à plusieurs locuteurs en n’ayant besoin que d’alimenter les étiquettes correspondantes des segments à plusieurs locuteurs. Nous avons évalué la méthode proposée sur des mélanges de paroles simulés. Le taux d’erreur de diarisation atteint 12,28 %, contre 28,77 % pour un système classique basé sur le regroupement. De plus, l’adaptation au domaine à l’aide de paroles enregistrées réellement a permis une amélioration relative de 25,6 % sur le jeu de données CALLHOME. Le code source est disponible en ligne à l’adresse suivante : https://github.com/hitachi-speech/EEND.