17일 전
BigTranslate: 100개 이상의 언어를 지원하는 다국어 번역 기능을 갖춘 대규모 언어 모델 증강
Wen Yang, Chong Li, Jiajun Zhang, Chengqing Zong

초록
대규모 언어 모델(LLMs)은 다양한 자연어 간 번역 성능에서 희망적인 결과를 보여주고 있다. 그러나 많은 LLM, 특히 오픈소스 모델인 BLOOM과 LLaMA와 같은 모델들은 영어 중심이며, 자연어 번역 지원 범위가 수십 가지에 불과하여 LLM이 언어 번역 분야에서 가진 잠재력이 충분히 탐구되지 못하고 있다. 본 연구에서는 LLaMA가 지원하는 언어가 20개에 불과한 상태에서, 100개 이상의 언어에 대한 다국어 번역 능력을 강화한 BigTranslate를 제안한다. BigTranslate는 LLaMA-13B를 기반으로 하며, 세 단계에 걸쳐 최적화된다. 첫째, 대규모 중국어 단일언어 데이터를 사용해 LLaMA를 지속 학습시킨다. 둘째, 102개의 자연어를 포함하는 대규모 병렬 데이터셋을 활용해 모델을 추가로 지속 학습시킨다. 셋째, 다국어 번역 지시문을 활용해 기초 모델을 지시-튜닝(instruction-tune)함으로써 최종적인 BigTranslate 모델을 구축한다. 다국어 번역에 대한 초기 실험 결과, BigTranslate는 여러 언어에서 ChatGPT 및 Google Translate와 유사한 성능을 보이며, 8개 언어 쌍에서는 ChatGPT를 상회하는 성능을 기록했다. 본 연구에서는 BigTranslate 모델을 공개함으로써 관련 연구 발전에 기여하고자 한다.