HyperAIHyperAI
il y a 17 jours

VoxPopuli : un corpus multilingue à grande échelle pour l'apprentissage de représentations, l'apprentissage semi-supervisé et l'interprétation

Changhan Wang, Morgane Rivière, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux
VoxPopuli : un corpus multilingue à grande échelle pour l'apprentissage de représentations, l'apprentissage semi-supervisé et l'interprétation
Résumé

Nous introduisons VoxPopuli, un corpus multilingue à grande échelle offrant 100 000 heures de données audio non étiquetées dans 23 langues. Il s’agit actuellement du plus grand ensemble de données ouvertes disponible pour l’apprentissage non supervisé des représentations ainsi que pour l’apprentissage semi-supervisé. VoxPopuli inclut également 1 800 heures de discours transcrits dans 16 langues, accompagnés de leurs interprétations orales alignées dans cinq autres langues, pour un total de 5 100 heures. Nous fournissons des seuils de référence pour la reconnaissance vocale et validons la polyvalence des données non étiquetées de VoxPopuli dans un cadre d’apprentissage semi-supervisé, même sous des conditions difficiles de domaine hors distribution. Le corpus sera publié sur GitHub à l’adresse suivante : https://github.com/facebookresearch/voxpopuli, sous une licence ouverte.

VoxPopuli : un corpus multilingue à grande échelle pour l'apprentissage de représentations, l'apprentissage semi-supervisé et l'interprétation | Articles de recherche récents | HyperAI