il y a 8 jours

TitaNet : Modèle neuronal pour la représentation des locuteurs basé sur des convolutions depth-wise séparables 1D et un contexte global

Nithin Rao Koluguri, Taejin Park, Boris Ginsburg

Résumé

Dans cet article, nous proposons TitaNet, une nouvelle architecture de réseau de neurones pour l'extraction de représentations d'locuteurs. Nous utilisons des convolutions 1D séparables en profondeur, combinées à des couches Squeeze-and-Excitation (SE) intégrant un contexte global, suivies d'une couche de pooling statistique basée sur l'attention sur les canaux, afin de mapper des énoncés de longueur variable vers un embedding de longueur fixe (t-vecteur). TitaNet est une architecture évolutif qui atteint des performances de pointe sur la tâche de vérification d'locuteur, avec un taux d'erreur égal (EER) de 0,68 % sur le fichier d'essai VoxCeleb1, ainsi qu'une performance remarquable sur les tâches de diarisation d'locuteur, avec un taux d'erreur de diarisation (DER) de 1,73 % sur AMI-MixHeadset, 1,99 % sur AMI-Lapel et 1,11 % sur CH109. En outre, nous étudions différentes tailles de TitaNet et présentons un modèle léger, TitaNet-S, comprenant uniquement 6 millions de paramètres, qui atteint des résultats proches de l'état de l'art sur les tâches de diarisation.