15일 전
DOCmT5: 다국어 언어 모델의 문서 수준 사전 훈련
Chia-Hsuan Lee, Aditya Siddhant, Viresh Ratnakar, Melvin Johnson

초록
본 논문에서는 대규모 병렬 문서를 기반으로 사전 훈련된 다국어 시퀀스-투-시퀀스 언어 모델인 DOCmT5를 소개한다. 기존의 접근 방식은 문장 수준의 병렬 데이터에 주로 초점을 맞추었지만, 우리는 장문의 문서를 이해하고 생성할 수 있는 일반 목적의 사전 훈련 모델을 구축하고자 한다. 이를 위해 입력 문서를 셔플하고 마스킹한 후 번역해야 하는 간단하면서도 효과적인 사전 훈련 목표인 문서 재정렬 기계 번역(Document reordering Machine Translation, DrMT)을 제안한다. DrMT는 다양한 문서 수준 생성 작업에서 강력한 기준 모델보다 일관된 성능 향상을 보이며, 알려진 언어 쌍에 대한 문서 수준 번역에서는 12점 이상의 BLEU 점수 향상, 알려지지 않은 언어 쌍에 대한 문서 수준 번역에서는 7점 이상의 BLEU 점수 향상, 그리고 알려진 언어 쌍에 대한 다국어 요약에서는 3점 이상의 ROUGE-1 점수 향상을 달성한다. WMT20 De-En 및 IWSLT15 Zh-En 문서 번역 과제에서 최고 성능(SOTA)을 기록하였다. 또한 문서 사전 훈련에 영향을 미치는 다양한 요인들에 대한 광범위한 분석을 수행하였으며, 특히 (1) 사전 훈련 데이터의 품질 영향과 (2) 단언어 및 다국어 사전 훈련의 병합 효과를 탐구하였다. 본 모델의 체크포인트는 향후 공개할 예정이다.