vor 11 Tagen
XLM-E: Cross-lingual Language Model Pre-training via ELECTRA
Zewen Chi, Shaohan Huang, Li Dong, Shuming Ma, Bo Zheng, Saksham Singhal, Payal Bajaj, Xia Song, Xian-Ling Mao, Heyan Huang, Furu Wei

Abstract
In diesem Paper führen wir ELECTRA-artige Aufgaben für die mehrsprachige Sprachmodell-Vortrainierung ein. Konkret stellen wir zwei Vortrainierungsaufgaben vor: multilinguale Ersetzungs-Token-Detektion und Übersetzungs-Ersetzungs-Token-Detektion. Zudem trainieren wir das Modell, benannt XLM-E, sowohl auf multilingualen als auch auf parallelen Korpora vor. Unser Modell erreicht auf verschiedenen Aufgaben zur mehrsprachigen Verständnisleistung eine bessere Leistung als die Basismodelle, wobei der Rechenaufwand erheblich geringer ist. Darüber hinaus zeigt die Analyse, dass XLM-E eine bessere Übertragbarkeit zwischen Sprachen aufweist.