
초록
라벨된 훈련 데이터의 부족은 종종 NLP(자연어 처리) 모델의 다국어화를 방해합니다. 최근 다언어 이해(Cross-lingual Understanding, XLU) 분야에서의 발전은 이 문제에 대해 진전을 이루고 있으며, 언어 간 장벽을 언어 보편적 표현을 사용하여 극복하려는 시도를 하고 있습니다. 그러나, 언어 문제가 해결되더라도 한 언어로 훈련된 모델이 다른 언어로 완벽하게 전이되지 않는 경우가 많습니다. 이는 언어와 문화 간에 자연스럽게 발생하는 도메인 이동(Domain Drift) 때문입니다. 우리는 라벨된 데이터가 소스 언어(영어)에서만 제공되고, 대상 언語에서는 비라벨된 데이터만 제공되는 반감독형 다언어 이해(Semi-supervised Cross-lingual Understanding) 설정을 고려합니다. 최신의 다언어 방법론과 최근 제안된 약간독학 학습(Weakly Supervised Learning) 방법론, 예를 들어 비지도 사전 학습(Unsupervised Pre-training)과 비지도 데이터 증강(Unsupervised Data Augmentation)을 결합하여 XLU에서의 언어 간 차이와 도메인 간 차이를 동시에 줄이는 방법을 연구하였습니다. 우리는 도메인 간 차이를 해결하는 것이 중요하다는 것을 입증하였으며, 강력한 기준 모델들을 개선하여 다언어 문서 분류(Cross-lingual Document Classification)에서 새로운 최고 수준의 성능을 달성하였습니다.