
초록
최근 연구들은 영어 자연어 이해를 위한 생성적 사전훈련의 효율성을 입증하였습니다. 본 연구에서는 이 접근법을 여러 언어로 확장하고, 다국어 간 사전훈련의 효과를 보여주고자 합니다. 우리는 두 가지 방법을 제안하여 다국어 간 언어 모델(XLMs)을 학습합니다: 하나는 단일 언어 데이터에만 의존하는 비지도 학습 방법, 다른 하나는 새로운 다국어 간 언어 모델 목표 함수를 사용하여 병렬 데이터를 활용하는 지도 학습 방법입니다. 우리는 다국어 분류, 비지도 및 지도 기계 번역에서 최신 기술 수준의 결과를 얻었습니다. XNLI에서 우리의 접근법은 절대적으로 4.9%의 정확도 향상으로 최신 기술 수준을 앞당겼습니다. 비지도 기계 번역에서는 WMT'16 독일어-영어 코퍼스에서 34.3 BLEU 점수를 얻었으며, 이는 이전 최신 기술 수준보다 9 BLEU 이상 향상된 것입니다. 지도 기계 번역에서는 WMT'16 루마니아어-영어 코퍼스에서 38.5 BLEU 점수를 얻었으며, 이는 이전 최고 접근법보다 4 BLEU 이상 우수한 성능을 나타냅니다. 우리의 코드와 사전훈련된 모델은 공개될 예정입니다.