HyperAIHyperAI

Command Palette

Search for a command to run...

Diarisation parlant neurale bout-en-bout avec attention auto-attentionnelle

Yusuke Fujita Naoyuki Kanda Shota Horiguchi Yawen Xue Kenji Nagamatsu Shinji Watanabe

Résumé

La diarisation des locuteurs a principalement été développée sur la base du regroupement (clustering) des embeddings de locuteurs. Toutefois, l’approche fondée sur le clustering présente deux limitations majeures : (i) elle n’est pas directement optimisée pour minimiser les erreurs de diarisation, et (ii) elle ne traite pas correctement les surimpositions de locuteurs. Pour résoudre ces problèmes, la diarisation neurale end-to-end (EEND) a été récemment proposée ; elle utilise un réseau de mémoire à longue et courte durée bidirectionnel (BLSTM) pour produire directement les résultats de diarisation à partir d’un enregistrement à plusieurs locuteurs. Dans cette étude, nous améliorons EEND en remplaçant les blocs BLSTM par des blocs d’attention auto-associative (self-attention). Contrairement au BLSTM, qui dépend uniquement de ses états cachés précédents et suivants, l’attention auto-associative est directement conditionnée sur toutes les autres trames, ce qui la rend particulièrement adaptée au traitement du problème de diarisation. Nous avons évalué notre méthode sur des mélanges simulés, des appels téléphoniques réels et des enregistrements de dialogues réels. Les résultats expérimentaux montrent que l’attention auto-associative est déterminante pour atteindre de bonnes performances, et que notre approche s’avère significativement supérieure à la méthode classique basée sur le BLSTM. De plus, elle dépasse même les performances de la méthode de pointe basée sur le clustering d’embeddings x-vector. Enfin, en visualisant les représentations latentes, nous démontrons que l’attention auto-associative permet de capturer non seulement les dynamiques locales d’activité vocale, mais aussi des caractéristiques globales des locuteurs. Le code source de notre méthode est disponible en ligne à l’adresse suivante : https://github.com/hitachi-speech/EEND.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Diarisation parlant neurale bout-en-bout avec attention auto-attentionnelle | Articles | HyperAI