HyperAIHyperAI

Command Palette

Search for a command to run...

XLS-R: Selbstüberwachte mehrsprachige Sprachrepräsentationslernung im großen Maßstab

Zusammenfassung

Diese Arbeit präsentiert XLS-R, ein großskaliges Modell für die mehrsprachige Sprachrepräsentationslernung basierend auf wav2vec 2.0. Wir trainieren Modelle mit bis zu 2 Milliarden Parametern auf annähernd einer halben Million Stunden öffentlich verfügbaren Sprachaudio in 128 Sprachen – eine Größenordnung mehr öffentliche Daten als das bisher größte bekannte Vorarbeiten. Unsere Evaluierung umfasst eine breite Palette an Aufgaben, Domänen, Datenszenarien und Sprachen, sowohl hoch- als auch niedrigressourcenreiche. Auf dem CoVoST-2-Sprachübersetzungsbenchmark verbessern wir die bisher beste Leistung um durchschnittlich 7,4 BLEU über 21 Übersetzungsrichtungen ins Englische. Für die Spracherkennung erreicht XLS-R eine Verbesserung gegenüber der bisher besten bekannten Vorarbeit auf BABEL, MLS, CommonVoice sowie VoxPopuli und senkt die Fehlerraten im Durchschnitt um 14 bis 34 Prozent. XLS-R setzt zudem eine neue Bestleistung auf der Sprachidentifikationsaufgabe VoxLingua107. Darüber hinaus zeigen wir, dass bei ausreichend großem Modellumfang die mehrsprachige Vortraining-Strategie die englisch-spezifische Vortraining-Strategie bei der Übersetzung englischer Sprache in andere Sprachen übertrifft – ein Szenario, das traditionell die Monolingualität begünstigt. Wir hoffen, dass XLS-R dazu beitragen kann, Sprachverarbeitungsaufgaben für viele weitere Sprachen der Welt zu verbessern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
XLS-R: Selbstüberwachte mehrsprachige Sprachrepräsentationslernung im großen Maßstab | Paper | HyperAI