HyperAIHyperAI

Command Palette

Search for a command to run...

VoxPopuli : un corpus multilingue à grande échelle pour l'apprentissage de représentations, l'apprentissage semi-supervisé et l'interprétation

Changhan Wang Morgane Rivière Ann Lee Anne Wu Chaitanya Talnikar Daniel Haziza Mary Williamson Juan Pino Emmanuel Dupoux

Résumé

Nous introduisons VoxPopuli, un corpus multilingue à grande échelle offrant 100 000 heures de données audio non étiquetées dans 23 langues. Il s’agit actuellement du plus grand ensemble de données ouvertes disponible pour l’apprentissage non supervisé des représentations ainsi que pour l’apprentissage semi-supervisé. VoxPopuli inclut également 1 800 heures de discours transcrits dans 16 langues, accompagnés de leurs interprétations orales alignées dans cinq autres langues, pour un total de 5 100 heures. Nous fournissons des seuils de référence pour la reconnaissance vocale et validons la polyvalence des données non étiquetées de VoxPopuli dans un cadre d’apprentissage semi-supervisé, même sous des conditions difficiles de domaine hors distribution. Le corpus sera publié sur GitHub à l’adresse suivante : https://github.com/facebookresearch/voxpopuli, sous une licence ouverte.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp