11일 전

XLM-E: ELECTRA를 통한 다국어 언어 모델 사전 훈련

Zewen Chi, Shaohan Huang, Li Dong, Shuming Ma, Bo Zheng, Saksham Singhal, Payal Bajaj, Xia Song, Xian-Ling Mao, Heyan Huang, Furu Wei

논문 세부 정보 보기

초록

본 논문에서는 전이 언어 모델 사전 훈련을 위한 ELECTRA 스타일의 작업들을 제안한다. 구체적으로 다국어 대체 토큰 탐지(multilingual replaced token detection) 및 번역 대체 토큰 탐지(translation replaced token detection)라는 두 가지 사전 훈련 작업을 제시한다. 또한, 다국어 및 병렬 문장 집합(parallel corpora)을 기반으로 XLM-E라는 모델을 사전 훈련하였다. 제안하는 모델은 다양한 다국어 이해 작업에서 기준 모델들을 상회하며, 훨씬 낮은 계산 비용으로도 우수한 성능을 달성하였다. 더불어 분석 결과, XLM-E는 더 뛰어난 다국어 전이 성능을 보이는 경향이 있음을 확인할 수 있었다.