Command Palette
Search for a command to run...
VoxBlink2 : Un corpus de reconnaissance vocale de plus de 100 000 locuteurs et un benchmark d'identification ouverte des locuteurs
VoxBlink2 : Un corpus de reconnaissance vocale de plus de 100 000 locuteurs et un benchmark d'identification ouverte des locuteurs
Yuke Lin Ming Cheng Fulin Zhang Yingying Gao Shilei Zhang Ming Li
Résumé
Dans cet article, nous présentons un grand ensemble de données audiovisuelles pour la reconnaissance des locuteurs, VoxBink2, qui comprend environ 10 millions d'énoncés avec des vidéos de plus de 110 000 locuteurs dans des conditions réelles. Cet ensemble de données représente une expansion significative par rapport au dataset VoxBlink, offrant une diversité accrue des locuteurs et des scénarios grâce à un pipeline d'acquisition de données optimisé. Par la suite, nous examinons l'impact des stratégies d'entraînement, de l'échelle des données et de la complexité du modèle sur la vérification des locuteurs, et établissons un nouveau record d'EER (erreur égalisant le taux) à 0,170 % et de minDCF (coût détecté minimal) à 0,006 % sur l'ensemble de test VoxCeleb1-O. Ces résultats remarquables nous incitent à explorer la reconnaissance des locuteurs sous un angle nouveau et plus difficile. Nous proposons la tâche d'identification ouverte des locuteurs (Open-Set Speaker-Identification), conçue pour faire correspondre une énoncé-test avec un locuteur connu dans une galerie ou le classer comme une requête inconnue. À cette fin, nous élaborons des protocoles d'évaluation concrets. Les ressources en données et modèles peuvent être consultées sur http://voxblink2.github.io.