11일 전

다국어 언어 모델링에서 변음은 도움이 되는가?

Ibraheem Muhammad Moosa, Mahmud Elahi Akhter, Ashfia Binte Habib
다국어 언어 모델링에서 변음은 도움이 되는가?
초록

스크립트 다양성은 밀접하게 관련된 언어 간의 어휘 겹침을 감소시킴으로써 다국어 언어 모델(Multilingual Language Models, MLLM)에 도전 과제를 제시한다. 따라서 서로 다른 글자 체계를 사용하는 밀접한 관련성을 가진 언어들을 공통의 글자 체계로 변역하는 것은 MLLM의 하류 작업 성능을 향상시킬 수 있다. 본 연구에서는 이러한 맥락에서 변역이 MLLM에 미치는 영향을 실증적으로 측정한다. 특히 세계에서 가장 높은 스크립트 다양성을 지닌 인도 언어군에 초점을 맞추고, 인도 언어 벤치마크인 IndicGLUE에서 모델 성능을 평가한다. 변역 효과의 통계적 유의성을 엄격히 검증하기 위해 Mann-Whitney U 검정을 수행한다. 그 결과, 변역이 자원이 적은 언어에 긍정적인 영향을 미치며, 비교적 자원이 풍부한 언어의 성능에는 부정적인 영향을 미치지 않는 것으로 확인되었다. 또한 FLORES-101 데이터셋의 평행 문장에서 중심 커널 일치(centred kernel alignment)를 활용하여 모델의 다국어 표현 유사도를 측정하였다. 그 결과, 서로 다른 언어 간 평행 문장에 대해 변역 기반 모델이 더 유사한 문장 표현을 학습하는 것으로 나타났다.

다국어 언어 모델링에서 변음은 도움이 되는가? | 최신 연구 논문 | HyperAI초신경