vor 11 Tagen

XLM-E: Cross-lingual Language Model Pre-training via ELECTRA

Zewen Chi, Shaohan Huang, Li Dong, Shuming Ma, Bo Zheng, Saksham Singhal, Payal Bajaj, Xia Song, Xian-Ling Mao, Heyan Huang, Furu Wei

Details der Forschungsarbeit anzeigen

XLM-E: Cross-lingual Language Model Pre-training via ELECTRA

Abstract

In diesem Paper führen wir ELECTRA-artige Aufgaben für die mehrsprachige Sprachmodell-Vortrainierung ein. Konkret stellen wir zwei Vortrainierungsaufgaben vor: multilinguale Ersetzungs-Token-Detektion und Übersetzungs-Ersetzungs-Token-Detektion. Zudem trainieren wir das Modell, benannt XLM-E, sowohl auf multilingualen als auch auf parallelen Korpora vor. Unser Modell erreicht auf verschiedenen Aufgaben zur mehrsprachigen Verständnisleistung eine bessere Leistung als die Basismodelle, wobei der Rechenaufwand erheblich geringer ist. Darüber hinaus zeigt die Analyse, dass XLM-E eine bessere Übertragbarkeit zwischen Sprachen aufweist.