VoxPopuli : un corpus multilingue à grande échelle pour l'apprentissage de représentations, l'apprentissage semi-supervisé et l'interprétation

Nous introduisons VoxPopuli, un corpus multilingue à grande échelle offrant 100 000 heures de données audio non étiquetées dans 23 langues. Il s’agit actuellement du plus grand ensemble de données ouvertes disponible pour l’apprentissage non supervisé des représentations ainsi que pour l’apprentissage semi-supervisé. VoxPopuli inclut également 1 800 heures de discours transcrits dans 16 langues, accompagnés de leurs interprétations orales alignées dans cinq autres langues, pour un total de 5 100 heures. Nous fournissons des seuils de référence pour la reconnaissance vocale et validons la polyvalence des données non étiquetées de VoxPopuli dans un cadre d’apprentissage semi-supervisé, même sous des conditions difficiles de domaine hors distribution. Le corpus sera publié sur GitHub à l’adresse suivante : https://github.com/facebookresearch/voxpopuli, sous une licence ouverte.