HyperAIHyperAI

Command Palette

Search for a command to run...

VoxPopuli: Ein großskaliges mehrsprachiges Sprachkorpus für die Repräsentationslernung, halbüberwachtes Lernen und Interpretation

Changhan Wang Morgane Rivière Ann Lee Anne Wu Chaitanya Talnikar Daniel Haziza Mary Williamson Juan Pino Emmanuel Dupoux

Zusammenfassung

Wir stellen VoxPopuli vor, einen großskaligen mehrsprachigen Korpus, der 100.000 Stunden ungekennzeichneter Sprachdaten in 23 Sprachen bereitstellt. Er ist der bisher größte öffentlich verfügbare Datensatz für die unsupervisierte Darstellungslernung sowie die halbüberwachte Lernung. VoxPopuli enthält außerdem 1,8 K Stunden transkribierter Sprache in 16 Sprachen sowie deren ausgerichteten mündlichen Interpretationen in fünf weiteren Sprachen, insgesamt 5,1 K Stunden. Wir präsentieren Baseline-Modelle für Spracherkennung und validieren die Vielseitigkeit der ungekennzeichneten Daten von VoxPopuli im Kontext halbüberwachter Lernverfahren unter anspruchsvollen, außerhalb des Trainingsdomänen liegenden Bedingungen. Der Korpus wird unter der Open-Source-Lizenz auf https://github.com/facebookresearch/voxpopuli veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp