지리적 거리는 새로운 하이퍼파라미터: 영어-즈룰루 기계 번역을 위한 최적의 사전 학습 언어 찾기 연구 사례

이즈룰루(isiZulu)와 같은 저자원 언어의 데이터셋과 텍스트 자원의 한정된 가용성으로 인해, 사전 학습된 모델에서 지식을 활용하여 저자원 기계 번역을 개선할 수 있는 능력이 크게 필요합니다. 또한, 형태적으로 풍부한 언어의 복잡성을 처리할 수 있는 기술 부족은 번역 모델의 불균등한 발전을 더욱 악화시켰으며, 이로 인해 많은 아프리카 언어들이 뒤처지게 되었습니다. 본 연구에서는 영어-이즈룰루 번역 프레임워크에서 전이 학습의 잠재적 이점을 탐구하였습니다. 결과는 밀접하게 관련된 언어로부터의 전이 학습이 저자원 번역 모델의 성능을 향상시키는 가치를 보여주며, 앞으로 저자원 번역에 있어 중요한 전략을 제공함을 시사합니다. 우리는 8개의 다른 언어 말뭉치,其中包括一个多语言语料库,에서 결과를 수집하였으며, 이스코사-이즈룰루(isiXhosa-isiZulu)가 모든 언어를 상회하는 것으로 나타났습니다. 테스트 세트에서 BLEU 점수가 8.56으로, 다언어 말뭉치 사전 학습 모델보다 2.73점 높았습니다. 또한 우리는 새로운 계수인 나시르 지리적 거리 계수(Nasir's Geographical Distance Coefficient, NGDC)를 도출하였는데, 이는 사전 학습 모델에 사용될 언어 선택을 용이하게 합니다. NGDC는 이스코사(isiXhosa)가 사전 학습 모델에 사용될 언어로 선택되어야 함을 나타내었습니다.注:在翻译过程中,有一句中文混入了韩文翻译中。以下是修正后的版本:우리는 8개의 다른 언어 말뭉치,其中包括一个多语言语料库(다언어 말뭉치 포함), 에서 결과를 수집하였으며, 이스코사-이즈룰루(isiXhosa-isiZulu)가 모든 언어를 상회하는 것으로 나타났습니다. 테스트 세트에서 BLEU 점수가 8.56으로, 다언어 말뭉치 사전 학습 모델보다 2.73점 높았습니다. 또한 우리는 새로운 계수인 나시르 지리적 거리 계수(Nasir's Geographical Distance Coefficient, NGDC)를 도출하였는데, 이는 사전 학습 모델에 사용될 언어 선택을 용이하게 합니다. NGDC는 이스코사(isiXhosa)가 사전 학습 모델에 사용될 언어로 선택되어야 함을 나타내었습니다.