Cross-linguale Sprachmodell-Vortrainung

Neuere Studien haben die Effizienz des generativen Vortrainings für das Verständnis natürlicher englischer Sprache nachgewiesen. In dieser Arbeit erweitern wir diesen Ansatz auf mehrere Sprachen und zeigen die Wirksamkeit des cross-lingualen Vortrainings. Wir schlagen zwei Methoden zur Lernung von cross-lingualen Sprachmodellen (XLMs) vor: eine unüberwachte Methode, die sich nur auf monolinguale Daten stützt, und eine überwachte Methode, die parallele Daten mit einem neuen cross-lingualen Sprachmodellziel nutzt. Wir erzielen Stand-of-the-Art-Ergebnisse in der cross-lingualen Klassifikation sowie im unüberwachten und überwachten Maschinellen Übersetzen. Bei XNLI verbessert unser Ansatz den Stand der Technik um 4,9 % absolute Genauigkeit. Im unüberwachten Maschinellen Übersetzen erreichen wir 34,3 BLEU bei WMT'16 Deutsch-Englisch, was den bisherigen Stand der Technik um mehr als 9 BLEU übertrifft. Im überwachten Maschinellen Übersetzen erhalten wir einen neuen Stand der Technik von 38,5 BLEU bei WMT'16 Rumänisch-Englisch, wobei wir den bisher besten Ansatz um mehr als 4 BLEU übertreffen. Unser Code und unsere vortrainierten Modelle werden öffentlich zugänglich gemacht.