HyperAIHyperAI

Command Palette

Search for a command to run...

VoxBlink2 : Un corpus de reconnaissance vocale de plus de 100 000 locuteurs et un benchmark d'identification ouverte des locuteurs

Yuke Lin Ming Cheng Fulin Zhang Yingying Gao Shilei Zhang Ming Li

Résumé

Dans cet article, nous présentons un grand ensemble de données audiovisuelles pour la reconnaissance des locuteurs, VoxBink2, qui comprend environ 10 millions d'énoncés avec des vidéos de plus de 110 000 locuteurs dans des conditions réelles. Cet ensemble de données représente une expansion significative par rapport au dataset VoxBlink, offrant une diversité accrue des locuteurs et des scénarios grâce à un pipeline d'acquisition de données optimisé. Par la suite, nous examinons l'impact des stratégies d'entraînement, de l'échelle des données et de la complexité du modèle sur la vérification des locuteurs, et établissons un nouveau record d'EER (erreur égalisant le taux) à 0,170 % et de minDCF (coût détecté minimal) à 0,006 % sur l'ensemble de test VoxCeleb1-O. Ces résultats remarquables nous incitent à explorer la reconnaissance des locuteurs sous un angle nouveau et plus difficile. Nous proposons la tâche d'identification ouverte des locuteurs (Open-Set Speaker-Identification), conçue pour faire correspondre une énoncé-test avec un locuteur connu dans une galerie ou le classer comme une requête inconnue. À cette fin, nous élaborons des protocoles d'évaluation concrets. Les ressources en données et modèles peuvent être consultées sur http://voxblink2.github.io.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp