ESPnet-SPK : outil complet d'embedding vocal avec des recettes reproductibles, des frontaux auto-supervisés et des modèles prêts à l'emploi

Ce papier présente ESPnet-SPK, un outil conçu avec plusieurs objectifs visant à entraîner des extracteurs d’embeddings de locuteurs. Premièrement, nous proposons une plateforme open source destinée aux chercheurs du domaine de la reconnaissance des locuteurs, leur permettant de concevoir des modèles de manière simple et efficace. Nous mettons à disposition plusieurs modèles, allant de l’x-vector aux architectures récentes telles que SKA-TDNN. Grâce à une architecture modulaire, la création de variantes devient aisée. Nous visons également à faciliter l’interopérabilité entre les modèles développés et d’autres domaines, permettant à la communauté scientifique plus large d’intégrer facilement des extracteurs d’embeddings de pointe. Des extracteurs pré-entraînés sont accessibles de manière immédiate, et nous démontrons la polyvalence de l’outil en illustrant son intégration dans deux tâches distinctes. Un autre objectif consiste à intégrer diverses fonctionnalités issues d’apprentissage auto-supervisé. Nous publions une recette reproductible qui atteint un taux d’erreur égal (EER) de 0,39 % sur le protocole d’évaluation Vox1-O en utilisant WavLM-Large associé à ECAPA-TDNN.