Diarisation parlant neurale bout-en-bout avec attention auto-attentionnelle

La diarisation des locuteurs a principalement été développée sur la base du regroupement (clustering) des embeddings de locuteurs. Toutefois, l’approche fondée sur le clustering présente deux limitations majeures : (i) elle n’est pas directement optimisée pour minimiser les erreurs de diarisation, et (ii) elle ne traite pas correctement les surimpositions de locuteurs. Pour résoudre ces problèmes, la diarisation neurale end-to-end (EEND) a été récemment proposée ; elle utilise un réseau de mémoire à longue et courte durée bidirectionnel (BLSTM) pour produire directement les résultats de diarisation à partir d’un enregistrement à plusieurs locuteurs. Dans cette étude, nous améliorons EEND en remplaçant les blocs BLSTM par des blocs d’attention auto-associative (self-attention). Contrairement au BLSTM, qui dépend uniquement de ses états cachés précédents et suivants, l’attention auto-associative est directement conditionnée sur toutes les autres trames, ce qui la rend particulièrement adaptée au traitement du problème de diarisation. Nous avons évalué notre méthode sur des mélanges simulés, des appels téléphoniques réels et des enregistrements de dialogues réels. Les résultats expérimentaux montrent que l’attention auto-associative est déterminante pour atteindre de bonnes performances, et que notre approche s’avère significativement supérieure à la méthode classique basée sur le BLSTM. De plus, elle dépasse même les performances de la méthode de pointe basée sur le clustering d’embeddings x-vector. Enfin, en visualisant les représentations latentes, nous démontrons que l’attention auto-associative permet de capturer non seulement les dynamiques locales d’activité vocale, mais aussi des caractéristiques globales des locuteurs. Le code source de notre méthode est disponible en ligne à l’adresse suivante : https://github.com/hitachi-speech/EEND.