il y a 11 jours
XLM-E : Pré-entraînement de modèle linguistique multilingue via ELECTRA
Zewen Chi, Shaohan Huang, Li Dong, Shuming Ma, Bo Zheng, Saksham Singhal, Payal Bajaj, Xia Song, Xian-Ling Mao, Heyan Huang, Furu Wei

Résumé
Dans cet article, nous introduisons des tâches du type ELECTRA pour la préformation des modèles linguistiques multilingues. Plus précisément, nous proposons deux tâches de préformation : la détection du jeton remplacé multilingue, et la détection du jeton remplacé par traduction. En outre, nous préformons le modèle, nommé XLM-E, à l’aide à la fois de corpus multilingues et de corpus parallèles. Notre modèle obtient de meilleurs résultats que les modèles de référence sur diverses tâches d’understanding multilingue, tout en nécessitant un coût computationnel nettement réduit. En outre, une analyse montre que XLM-E présente une meilleure transférabilité multilingue.