17일 전

기계 번역의 패러다임 전환: 대규모 언어 모델의 번역 성능 향상

Haoran Xu, Young Jin Kim, Amr Sharaf, Hany Hassan Awadalla
기계 번역의 패러다임 전환: 대규모 언어 모델의 번역 성능 향상
초록

생성형 대규모 언어 모델(LLM)은 다양한 자연어처리(NLP) 작업에서 놀라운 성과를 거두었지만, 번역 작업에서는 이러한 발전이 충분히 반영되지 못하고 있다. 특히 중간 규모의 모델(예: 7B 또는 13B 파라미터)의 경우, 전통적인 감독 학습 기반의 인코더-디코더 번역 모델에 비해 여전히 뒤처져 있다. 기존 연구들은 이러한 중간 규모 LLM의 번역 능력을 향상시키기 위해 노력해왔지만, 얻은 성과는 제한적이었다. 본 연구에서는 번역 작업에 특화된 새로운 피니팅(fine-tuning) 전략을 제안한다. 이 전략은 기존 번역 모델이 의존하는 방대한 평행 데이터(Parallel data)가 필요 없도록 설계되었으며, 두 단계의 피니팅 과정으로 구성된다. 첫 번째 단계는 단일 언어 데이터를 활용한 초기 피니팅이고, 두 번째 단계는 고품질의 소규모 평행 데이터를 이용한 후속 피니팅이다. 이 전략을 통해 개발된 LLM을 ‘고급 언어 모델 기반 번역기(Advanced Language Model-based trAnslator, ALMA)’라 명명한다. 기반 모델로 LLaMA-2를 사용한 결과, WMT’21(2개 방향) 및 WMT’22(8개 방향) 테스트 데이터셋의 10개 번역 방향에서, 제로샷(zero-shot) 성능 대비 평균적으로 BLEU 점수와 COMET 점수 모두 12점 이상 향상되는 결과를 보였다. 이 성능은 기존 모든 연구를 압도하며, 파라미터 수가 7B 또는 13B에 불과함에도 불구하고 NLLB-54B 모델과 GPT-3.5-text-davinci-003보다 뛰어난 성능을 기록하였다. 본 연구는 기계 번역 분야에 새로운 학습 패러다임을 마련하는 기초를 제공한다.