HyperAIHyperAI
il y a 17 jours

VOXLINGUA107 : UN JEUX DE DONNÉES POUR LA RECONNAISSANCE DE LANGAGE PARLE

{Tanel Alumae, Jorgen Valk}
Résumé

Cet article étudie l’utilisation de données audio web collectées automatiquement pour la reconnaissance de langues parlées. Nous générons des requêtes de recherche semi-aléatoires à partir de données Wikipedia spécifiques aux langues, puis utilisons ces requêtes pour extraire des vidéos depuis YouTube pour 107 langues. La détection d’activité vocale et la diarisation des locuteurs sont appliquées afin d’extraire des segments audio contenant du discours à partir des vidéos. Un post-traitement est ensuite appliqué pour éliminer les segments susceptibles de ne pas être dans la langue cible, ce qui permet d’augmenter la proportion de segments correctement étiquetés à 98 %, selon une vérification effectuée par des travailleurs de la foule (crowd-sourcing). La taille de l’ensemble d’entraînement résultant (VoxLingua107) atteint 6 628 heures (en moyenne 62 heures par langue), accompagné d’un ensemble d’évaluation comprenant 1 609 énoncés vérifiés. Nous utilisons ces données pour construire des modèles de reconnaissance de langue dans le cadre de diverses tâches d’identification de langue parlée. Les expérimentations montrent que l’utilisation de données d’entraînement récupérées automatiquement permet d’obtenir des résultats compétitifs par rapport à l’utilisation de jeux de données propriétaires manuellement étiquetés. Le jeu de données est mis à disposition publiquement.