11일 전
InfoXLM: 다국어 언어 모델 사전 훈련을 위한 정보이론적 프레임워크
Zewen Chi, Li Dong, Furu Wei, Nan Yang, Saksham Singhal, Wenhui Wang, Xia Song, Xian-Ling Mao, Heyan Huang, Ming Zhou

초록
본 연구에서는 다국어·다중 군집도 텍스트 간의 상호정보량을 최대화하는 방식으로 다국어 언어 모델 사전 훈련을 공식화하는 정보이론적 프레임워크를 제안한다. 이 통합적 관점은 기존의 다국어 표현 학습 방법들을 보다 깊이 있게 이해하는 데 도움을 준다. 더욱 중요한 것은, 이 프레임워크를 영감으로 삼아 대조 학습(contrastive learning) 기반의 새로운 사전 훈련 작업을 제안하는 것이다. 구체적으로, 이중 언어 문장 쌍을 동일한 의미에 대한 두 가지 시각(view)으로 간주하고, 그들의 인코딩된 표현이 부정 예시들보다 더 유사하도록 유도한다. 단일 언어 및 병렬 코퍼스를 모두 활용하여 사전 훈련 작업을 공동으로 학습함으로써, 사전 훈련된 모델의 다국어 전이 가능성을 향상시킨다. 여러 벤치마크에서의 실험 결과는 본 방법이 상당히 우수한 성능을 달성함을 보여준다. 코드와 사전 훈련 모델은 https://aka.ms/infoxlm에서 제공된다.