vor 9 Tagen

XLS-R: Selbstüberwachte mehrsprachige Sprachrepräsentationslernung im großen Maßstab

Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, Michael Auli

Details der Forschungsarbeit anzeigen

XLS-R: Selbstüberwachte mehrsprachige Sprachrepräsentationslernung im großen Maßstab

Abstract

Diese Arbeit präsentiert XLS-R, ein großskaliges Modell für die mehrsprachige Sprachrepräsentationslernung basierend auf wav2vec 2.0. Wir trainieren Modelle mit bis zu 2 Milliarden Parametern auf annähernd einer halben Million Stunden öffentlich verfügbaren Sprachaudio in 128 Sprachen – eine Größenordnung mehr öffentliche Daten als das bisher größte bekannte Vorarbeiten. Unsere Evaluierung umfasst eine breite Palette an Aufgaben, Domänen, Datenszenarien und Sprachen, sowohl hoch- als auch niedrigressourcenreiche. Auf dem CoVoST-2-Sprachübersetzungsbenchmark verbessern wir die bisher beste Leistung um durchschnittlich 7,4 BLEU über 21 Übersetzungsrichtungen ins Englische. Für die Spracherkennung erreicht XLS-R eine Verbesserung gegenüber der bisher besten bekannten Vorarbeit auf BABEL, MLS, CommonVoice sowie VoxPopuli und senkt die Fehlerraten im Durchschnitt um 14 bis 34 Prozent. XLS-R setzt zudem eine neue Bestleistung auf der Sprachidentifikationsaufgabe VoxLingua107. Darüber hinaus zeigen wir, dass bei ausreichend großem Modellumfang die mehrsprachige Vortraining-Strategie die englisch-spezifische Vortraining-Strategie bei der Übersetzung englischer Sprache in andere Sprachen übertrifft – ein Szenario, das traditionell die Monolingualität begünstigt. Wir hoffen, dass XLS-R dazu beitragen kann, Sprachverarbeitungsaufgaben für viele weitere Sprachen der Welt zu verbessern.