Massiv multilinguale Satzrepräsentationen für Zero-Shot-Cross-Lingual-Transfer und darüber hinaus

Wir stellen eine Architektur vor, die gemeinsame mehrsprachige Satzrepräsentationen für 93 Sprachen erlernen kann, die zu mehr als 30 verschiedenen Sprachfamilien gehören und in 28 verschiedenen Schriftsystemen geschrieben werden. Unser System verwendet einen einzelnen BiLSTM-Encoder mit einem geteilten BPE-Vokabular für alle Sprachen, der mit einem zusätzlichen Decoder gekoppelt ist und auf öffentlich verfügbaren parallelen Korpora trainiert wird. Dies ermöglicht es uns, einen Klassifizierer auf den resultierenden Einbettungen unter Verwendung nur englisch annotierter Daten zu trainieren und ihn auf jede der 93 Sprachen ohne Änderungen zu übertragen. Unsere Experimente im Bereich des cross-lingualen natürlichsprachlichen Schlussfolgerns (XNLI-Datensatz), der cross-lingualen Dokumentenklassifikation (MLDoc-Datensatz) und der parallelen Korpusauswertung (BUCC-Datensatz) zeigen die Effektivität unseres Ansatzes. Wir führen außerdem einen neuen Testdatensatz von ausgerichteten Sätzen in 112 Sprachen ein und zeigen, dass unsere Satzeinbettungen auch bei ressourcenarmen Sprachen starke Ergebnisse bei der mehrsprachigen Ähnlichkeitssuche erzielen. Unsere Implementierung, der vortrainierte Encoder und der mehrsprachige Testdatensatz sind unter https://github.com/facebookresearch/LASER verfügbar.