il y a 7 mois

Résumé

Cet article étudie l’utilisation de données audio web collectées automatiquement pour la reconnaissance de langues parlées. Nous générons des requêtes de recherche semi-aléatoires à partir de données Wikipedia spécifiques aux langues, puis utilisons ces requêtes pour extraire des vidéos depuis YouTube pour 107 langues. La détection d’activité vocale et la diarisation des locuteurs sont appliquées afin d’extraire des segments audio contenant du discours à partir des vidéos. Un post-traitement est ensuite appliqué pour éliminer les segments susceptibles de ne pas être dans la langue cible, ce qui permet d’augmenter la proportion de segments correctement étiquetés à 98 %, selon une vérification effectuée par des travailleurs de la foule (crowd-sourcing). La taille de l’ensemble d’entraînement résultant (VoxLingua107) atteint 6 628 heures (en moyenne 62 heures par langue), accompagné d’un ensemble d’évaluation comprenant 1 609 énoncés vérifiés. Nous utilisons ces données pour construire des modèles de reconnaissance de langue dans le cadre de diverses tâches d’identification de langue parlée. Les expérimentations montrent que l’utilisation de données d’entraînement récupérées automatiquement permet d’obtenir des résultats compétitifs par rapport à l’utilisation de jeux de données propriétaires manuellement étiquetés. Le jeu de données est mis à disposition publiquement.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Jeu De Données

Traitement Audio Et Vocal

Tanel Alumae Jorgen Valk

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Jeu De Données

Traitement Audio Et Vocal

Tanel Alumae Jorgen Valk

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

VOXLINGUA107 : UN JEUX DE DONNÉES POUR LA RECONNAISSANCE DE LANGAGE PARLE

Tanel Alumae Jorgen Valk

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VOXLINGUA107 : UN JEUX DE DONNÉES POUR LA RECONNAISSANCE DE LANGAGE PARLE

Tanel Alumae Jorgen Valk

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VOXLINGUA107 : UN JEUX DE DONNÉES POUR LA RECONNAISSANCE DE LANGAGE PARLE

Tanel Alumae Jorgen Valk

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters