HyperAIHyperAI

Command Palette

Search for a command to run...

TitaNet : Modèle neuronal pour la représentation des locuteurs basé sur des convolutions depth-wise séparables 1D et un contexte global

Nithin Rao Koluguri Taejin Park Boris Ginsburg

Résumé

Dans cet article, nous proposons TitaNet, une nouvelle architecture de réseau de neurones pour l'extraction de représentations d'locuteurs. Nous utilisons des convolutions 1D séparables en profondeur, combinées à des couches Squeeze-and-Excitation (SE) intégrant un contexte global, suivies d'une couche de pooling statistique basée sur l'attention sur les canaux, afin de mapper des énoncés de longueur variable vers un embedding de longueur fixe (t-vecteur). TitaNet est une architecture évolutif qui atteint des performances de pointe sur la tâche de vérification d'locuteur, avec un taux d'erreur égal (EER) de 0,68 % sur le fichier d'essai VoxCeleb1, ainsi qu'une performance remarquable sur les tâches de diarisation d'locuteur, avec un taux d'erreur de diarisation (DER) de 1,73 % sur AMI-MixHeadset, 1,99 % sur AMI-Lapel et 1,11 % sur CH109. En outre, nous étudions différentes tailles de TitaNet et présentons un modèle léger, TitaNet-S, comprenant uniquement 6 millions de paramètres, qui atteint des résultats proches de l'état de l'art sur les tâches de diarisation.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp