il y a 6 mois

Jee-weon Jung Wangyou Zhang Jiatong Shi Zakaria Aldeneh Takuya Higuchi Barry-John Theobald Ahmed Hussen Abdelaziz Shinji Watanabe

Résumé

Ce papier présente ESPnet-SPK, un outil conçu avec plusieurs objectifs visant à entraîner des extracteurs d’embeddings de locuteurs. Premièrement, nous proposons une plateforme open source destinée aux chercheurs du domaine de la reconnaissance des locuteurs, leur permettant de concevoir des modèles de manière simple et efficace. Nous mettons à disposition plusieurs modèles, allant de l’x-vector aux architectures récentes telles que SKA-TDNN. Grâce à une architecture modulaire, la création de variantes devient aisée. Nous visons également à faciliter l’interopérabilité entre les modèles développés et d’autres domaines, permettant à la communauté scientifique plus large d’intégrer facilement des extracteurs d’embeddings de pointe. Des extracteurs pré-entraînés sont accessibles de manière immédiate, et nous démontrons la polyvalence de l’outil en illustrant son intégration dans deux tâches distinctes. Un autre objectif consiste à intégrer diverses fonctionnalités issues d’apprentissage auto-supervisé. Nous publions une recette reproductible qui atteint un taux d’erreur égal (EER) de 0,39 % sur le protocole d’évaluation Vox1-O en utilisant WavLM-Large associé à ECAPA-TDNN.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Traitement Audio Et Vocal

Classification Audio

Apprentissage Multi-tâches

Approche/Framework

Audio

Tâche

Jee-weon Jung Wangyou Zhang Jiatong Shi Zakaria Aldeneh Takuya Higuchi Barry-John Theobald Ahmed Hussen Abdelaziz Shinji Watanabe

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Traitement Audio Et Vocal

Classification Audio

Apprentissage Multi-tâches

Approche/Framework

Audio

Tâche

Jee-weon Jung Wangyou Zhang Jiatong Shi Zakaria Aldeneh Takuya Higuchi Barry-John Theobald Ahmed Hussen Abdelaziz Shinji Watanabe

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

ESPnet-SPK : outil complet d'embedding vocal avec des recettes reproductibles, des frontaux auto-supervisés et des modèles prêts à l'emploi | Articles | HyperAI

Command Palette

ESPnet-SPK : outil complet d'embedding vocal avec des recettes reproductibles, des frontaux auto-supervisés et des modèles prêts à l'emploi

Jee-weon Jung Wangyou Zhang Jiatong Shi Zakaria Aldeneh Takuya Higuchi Barry-John Theobald Ahmed Hussen Abdelaziz Shinji Watanabe

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

ESPnet-SPK : outil complet d'embedding vocal avec des recettes reproductibles, des frontaux auto-supervisés et des modèles prêts à l'emploi

Jee-weon Jung Wangyou Zhang Jiatong Shi Zakaria Aldeneh Takuya Higuchi Barry-John Theobald Ahmed Hussen Abdelaziz Shinji Watanabe

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

ESPnet-SPK : outil complet d'embedding vocal avec des recettes reproductibles, des frontaux auto-supervisés et des modèles prêts à l'emploi

Jee-weon Jung Wangyou Zhang Jiatong Shi Zakaria Aldeneh Takuya Higuchi Barry-John Theobald Ahmed Hussen Abdelaziz Shinji Watanabe

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters