MuCoT: 저자원 언어에서의 질문-응답을 위한 다국어 대조 학습

최근 몇 년간 Transformer 기반 모델(예: BERT)의 등장으로 인해 영어 질문-답변(QA) 시스템의 정확도는 크게 향상되었다. 이러한 모델들은 대규모 영어 텍스트 코퍼스를 활용하여 자기지도 학습 방식으로 사전 훈련된 후, 대규모 영어 QA 데이터셋(예: SQuAD)을 이용해 추가로 미세 조정된다. 그러나 대부분의 다른 언어에 대해서는 이와 같은 규모의 QA 데이터셋이 존재하지 않는다. 다언어 BERT 기반 모델(mBERT)은 고자원 언어에서 저자원 언어로 지식을 전이하는 데 자주 활용된다. 이러한 모델은 여러 언어를 포함하는 거대한 텍스트 코퍼스를 기반으로 사전 훈련되므로, 다양한 언어의 토큰에 대해 언어에 관계없는 임베딩을 학습하는 경향이 있다. 그러나 저자원 언어에 대해 mBERT 기반 QA 시스템을 직접 훈련하는 것은 훈련 데이터 부족으로 인해 어려운 과제이다. 본 연구에서는 대상 언어의 QA 샘플을 다른 언어로의 번역 및 음차(Transliteration)를 통해 증강하고, 이를 통해 이미 영어에서 사전 훈련된 mBERT 기반 QA 모델을 미세 조정한다. Google ChAII 데이터셋에 대한 실험 결과, 동일 언어계열에서의 번역을 이용한 미세 조정은 질문-답변 성능을 향상시키는 반면, 다국어계열 간 번역을 사용할 경우 성능이 저하됨을 확인하였다. 또한, 미세 조정 과정 중 번역된 질문-문맥 특성 쌍 간에 대조 손실(contrastive loss)을 도입함으로써, 다국어계열 번역에 따른 성능 저하를 방지하고 약간의 성능 향상을 달성함을 보였다. 본 연구의 코드는 https://github.com/gokulkarthik/mucot 에서 공개되어 있다.