HyperAIHyperAI

Command Palette

Search for a command to run...

VoxCeleb2 : Reconnaissance profonde des locuteurs

Joon Son Chung Arsha Nagrani Andrew Zisserman

Résumé

L'objectif de cet article est la reconnaissance vocale dans des conditions bruyantes et non contrôlées. Nous apportons deux contributions majeures. Premièrement, nous présentons un ensemble de données audiovisuel à très grande échelle pour la reconnaissance vocale, collecté à partir de médias open source. En utilisant une chaîne de traitement entièrement automatisée, nous avons constitué le dataset VoxCeleb2 qui contient plus d'un million d'énoncés provenant de plus de 6 000 locuteurs. Cet ensemble de données est plusieurs fois plus grand que tout autre dataset public disponible pour la reconnaissance vocale.Deuxièmement, nous développons et comparons des modèles et des stratégies d'entraînement basés sur les Réseaux Neuronaux Convolutifs (CNN) capables de reconnaître efficacement les identités à partir de la voix dans diverses conditions. Les modèles entraînés sur le dataset VoxCeleb2 surpassent les performances des travaux précédents sur un jeu de données de référence avec une marge significative.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp