il y a 7 mois

Résumé

L'objectif de cet article est la reconnaissance vocale dans des conditions bruyantes et non contrôlées. Nous apportons deux contributions majeures. Premièrement, nous présentons un ensemble de données audiovisuel à très grande échelle pour la reconnaissance vocale, collecté à partir de médias open source. En utilisant une chaîne de traitement entièrement automatisée, nous avons constitué le dataset VoxCeleb2 qui contient plus d'un million d'énoncés provenant de plus de 6 000 locuteurs. Cet ensemble de données est plusieurs fois plus grand que tout autre dataset public disponible pour la reconnaissance vocale.Deuxièmement, nous développons et comparons des modèles et des stratégies d'entraînement basés sur les Réseaux Neuronaux Convolutifs (CNN) capables de reconnaître efficacement les identités à partir de la voix dans diverses conditions. Les modèles entraînés sur le dataset VoxCeleb2 surpassent les performances des travaux précédents sur un jeu de données de référence avec une marge significative.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Reconnaissance Vocale

Traitement Audio Et Vocal

Joon Son Chung Arsha Nagrani Andrew Zisserman

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Reconnaissance Vocale

Traitement Audio Et Vocal

Joon Son Chung Arsha Nagrani Andrew Zisserman

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

VoxCeleb2 : Reconnaissance profonde des locuteurs

Joon Son Chung Arsha Nagrani Andrew Zisserman

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VoxCeleb2 : Reconnaissance profonde des locuteurs

Joon Son Chung Arsha Nagrani Andrew Zisserman

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VoxCeleb2 : Reconnaissance profonde des locuteurs

Joon Son Chung Arsha Nagrani Andrew Zisserman

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters