HyperAIHyperAI
vor 17 Tagen

VoxPopuli: Ein großskaliges mehrsprachiges Sprachkorpus für die Repräsentationslernung, halbüberwachtes Lernen und Interpretation

Changhan Wang, Morgane Rivière, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux
VoxPopuli: Ein großskaliges mehrsprachiges Sprachkorpus für die Repräsentationslernung, halbüberwachtes Lernen und Interpretation
Abstract

Wir stellen VoxPopuli vor, einen großskaligen mehrsprachigen Korpus, der 100.000 Stunden ungekennzeichneter Sprachdaten in 23 Sprachen bereitstellt. Er ist der bisher größte öffentlich verfügbare Datensatz für die unsupervisierte Darstellungslernung sowie die halbüberwachte Lernung. VoxPopuli enthält außerdem 1,8 K Stunden transkribierter Sprache in 16 Sprachen sowie deren ausgerichteten mündlichen Interpretationen in fünf weiteren Sprachen, insgesamt 5,1 K Stunden. Wir präsentieren Baseline-Modelle für Spracherkennung und validieren die Vielseitigkeit der ungekennzeichneten Daten von VoxPopuli im Kontext halbüberwachter Lernverfahren unter anspruchsvollen, außerhalb des Trainingsdomänen liegenden Bedingungen. Der Korpus wird unter der Open-Source-Lizenz auf https://github.com/facebookresearch/voxpopuli veröffentlicht.