XLS-R: Selbstüberwachte mehrsprachige Sprachrepräsentationslernung im großen Maßstab

Diese Arbeit präsentiert XLS-R, ein großskaliges Modell für die mehrsprachige Sprachrepräsentationslernung basierend auf wav2vec 2.0. Wir trainieren Modelle mit bis zu 2 Milliarden Parametern auf annähernd einer halben Million Stunden öffentlich verfügbaren Sprachaudio in 128 Sprachen – eine Größenordnung mehr öffentliche Daten als das bisher größte bekannte Vorarbeiten. Unsere Evaluierung umfasst eine breite Palette an Aufgaben, Domänen, Datenszenarien und Sprachen, sowohl hoch- als auch niedrigressourcenreiche. Auf dem CoVoST-2-Sprachübersetzungsbenchmark verbessern wir die bisher beste Leistung um durchschnittlich 7,4 BLEU über 21 Übersetzungsrichtungen ins Englische. Für die Spracherkennung erreicht XLS-R eine Verbesserung gegenüber der bisher besten bekannten Vorarbeit auf BABEL, MLS, CommonVoice sowie VoxPopuli und senkt die Fehlerraten im Durchschnitt um 14 bis 34 Prozent. XLS-R setzt zudem eine neue Bestleistung auf der Sprachidentifikationsaufgabe VoxLingua107. Darüber hinaus zeigen wir, dass bei ausreichend großem Modellumfang die mehrsprachige Vortraining-Strategie die englisch-spezifische Vortraining-Strategie bei der Übersetzung englischer Sprache in andere Sprachen übertrifft – ein Szenario, das traditionell die Monolingualität begünstigt. Wir hoffen, dass XLS-R dazu beitragen kann, Sprachverarbeitungsaufgaben für viele weitere Sprachen der Welt zu verbessern.