Mutarjim: 소규모 언어 모델을 이용한 양방향 아랍어-영어 번역의 발전

우리는 양방향 아랍어-영어 번역을 위한 소형이지만 강력한 언어 모델인 Mutarjim을 소개합니다. 대규모 언어 모델(LLM)들이 자연어 처리 작업, 특히 기계 번역에서 뛰어난 성과를 보여주었음에도 불구하고, 더 작은 모델들은 특정 작업에서 효율적인 성능을 발휘할 수 있다는 인식에 바탕을 두고, 우리는 아랍어와 영어 모두에 맞춤화된 Kuwain-1.5B 언어 모델을 기반으로 Mutarjim을 개발하였습니다. 이 모델은 크기가 작음에도 불구하고 최적화된 두 단계 훈련 접근법과 정교하게 선별된 고품질 훈련 코퍼스를 통해 여러 확립된 벤치마크에서 훨씬 큰 모델들을 능가하는 성능을 보입니다.실험 결과는 Mutarjim이 최대 20배 더 큰 모델들과 경쟁력을 갖추면서도 계산 비용과 훈련 요구사항을 크게 줄였음을 보여줍니다. 또한, 우리는 기존의 아랍어-영어 벤치마킹 데이터셋들의 한계점, 예를 들어 도메인의 협소성, 짧은 문장 길이, 그리고 영어 출처 편향성을 극복하기 위해 설계된 새로운 벤치마크인 Tarjama-25를 소개합니다. Tarjama-25는 5,000개의 전문가 검토 문장 쌍으로 구성되어 있으며 다양한 도메인을 포괄하여 더욱 포괄적이고 균형 잡힌 평가 체계를 제공합니다.특히, Mutarjim은 Tarjama-25의 영어-아랍어 번역 작업에서 최신 수준의 성능을 달성하여 GPT-4 mini와 같은 상당히 크고 독점적인 모델들보다 우수한 성능을 보입니다. 우리는 Tarjama-25를 공개적으로 배포하여 미래 연구를 지원하고 아랍어-영어 번역 시스템의 평가를 발전시키기 위함입니다.