HyperAIHyperAI

Command Palette

Search for a command to run...

VOXLINGUA107 : UN JEUX DE DONNÉES POUR LA RECONNAISSANCE DE LANGAGE PARLE

Tanel Alumae Jorgen Valk

Résumé

Cet article étudie l’utilisation de données audio web collectées automatiquement pour la reconnaissance de langues parlées. Nous générons des requêtes de recherche semi-aléatoires à partir de données Wikipedia spécifiques aux langues, puis utilisons ces requêtes pour extraire des vidéos depuis YouTube pour 107 langues. La détection d’activité vocale et la diarisation des locuteurs sont appliquées afin d’extraire des segments audio contenant du discours à partir des vidéos. Un post-traitement est ensuite appliqué pour éliminer les segments susceptibles de ne pas être dans la langue cible, ce qui permet d’augmenter la proportion de segments correctement étiquetés à 98 %, selon une vérification effectuée par des travailleurs de la foule (crowd-sourcing). La taille de l’ensemble d’entraînement résultant (VoxLingua107) atteint 6 628 heures (en moyenne 62 heures par langue), accompagné d’un ensemble d’évaluation comprenant 1 609 énoncés vérifiés. Nous utilisons ces données pour construire des modèles de reconnaissance de langue dans le cadre de diverses tâches d’identification de langue parlée. Les expérimentations montrent que l’utilisation de données d’entraînement récupérées automatiquement permet d’obtenir des résultats compétitifs par rapport à l’utilisation de jeux de données propriétaires manuellement étiquetés. Le jeu de données est mis à disposition publiquement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp