VoxPopuli: Ein großskaliges mehrsprachiges Sprachkorpus für die Repräsentationslernung, halbüberwachtes Lernen und Interpretation

Wir stellen VoxPopuli vor, einen großskaligen mehrsprachigen Korpus, der 100.000 Stunden ungekennzeichneter Sprachdaten in 23 Sprachen bereitstellt. Er ist der bisher größte öffentlich verfügbare Datensatz für die unsupervisierte Darstellungslernung sowie die halbüberwachte Lernung. VoxPopuli enthält außerdem 1,8 K Stunden transkribierter Sprache in 16 Sprachen sowie deren ausgerichteten mündlichen Interpretationen in fünf weiteren Sprachen, insgesamt 5,1 K Stunden. Wir präsentieren Baseline-Modelle für Spracherkennung und validieren die Vielseitigkeit der ungekennzeichneten Daten von VoxPopuli im Kontext halbüberwachter Lernverfahren unter anspruchsvollen, außerhalb des Trainingsdomänen liegenden Bedingungen. Der Korpus wird unter der Open-Source-Lizenz auf https://github.com/facebookresearch/voxpopuli veröffentlicht.