HyperAIHyperAI

Command Palette

Search for a command to run...

ESPnet-SPK : outil complet d'embedding vocal avec des recettes reproductibles, des frontaux auto-supervisés et des modèles prêts à l'emploi

Jee-weon Jung Wangyou Zhang Jiatong Shi Zakaria Aldeneh Takuya Higuchi Barry-John Theobald Ahmed Hussen Abdelaziz Shinji Watanabe

Résumé

Ce papier présente ESPnet-SPK, un outil conçu avec plusieurs objectifs visant à entraîner des extracteurs d’embeddings de locuteurs. Premièrement, nous proposons une plateforme open source destinée aux chercheurs du domaine de la reconnaissance des locuteurs, leur permettant de concevoir des modèles de manière simple et efficace. Nous mettons à disposition plusieurs modèles, allant de l’x-vector aux architectures récentes telles que SKA-TDNN. Grâce à une architecture modulaire, la création de variantes devient aisée. Nous visons également à faciliter l’interopérabilité entre les modèles développés et d’autres domaines, permettant à la communauté scientifique plus large d’intégrer facilement des extracteurs d’embeddings de pointe. Des extracteurs pré-entraînés sont accessibles de manière immédiate, et nous démontrons la polyvalence de l’outil en illustrant son intégration dans deux tâches distinctes. Un autre objectif consiste à intégrer diverses fonctionnalités issues d’apprentissage auto-supervisé. Nous publions une recette reproductible qui atteint un taux d’erreur égal (EER) de 0,39 % sur le protocole d’évaluation Vox1-O en utilisant WavLM-Large associé à ECAPA-TDNN.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp