Command Palette
Search for a command to run...
VoxPopuli: Ein großskaliges mehrsprachiges Sprachkorpus für die Repräsentationslernung, halbüberwachtes Lernen und Interpretation
VoxPopuli: Ein großskaliges mehrsprachiges Sprachkorpus für die Repräsentationslernung, halbüberwachtes Lernen und Interpretation
Changhan Wang Morgane Rivière Ann Lee Anne Wu Chaitanya Talnikar Daniel Haziza Mary Williamson Juan Pino Emmanuel Dupoux
Zusammenfassung
Wir stellen VoxPopuli vor, einen großskaligen mehrsprachigen Korpus, der 100.000 Stunden ungekennzeichneter Sprachdaten in 23 Sprachen bereitstellt. Er ist der bisher größte öffentlich verfügbare Datensatz für die unsupervisierte Darstellungslernung sowie die halbüberwachte Lernung. VoxPopuli enthält außerdem 1,8 K Stunden transkribierter Sprache in 16 Sprachen sowie deren ausgerichteten mündlichen Interpretationen in fünf weiteren Sprachen, insgesamt 5,1 K Stunden. Wir präsentieren Baseline-Modelle für Spracherkennung und validieren die Vielseitigkeit der ungekennzeichneten Daten von VoxPopuli im Kontext halbüberwachter Lernverfahren unter anspruchsvollen, außerhalb des Trainingsdomänen liegenden Bedingungen. Der Korpus wird unter der Open-Source-Lizenz auf https://github.com/facebookresearch/voxpopuli veröffentlicht.