HyperAI초신경
2일 전

Nile-Chat: 이집트 언어 모델의 아랍 문자와 라틴 문자에 대한 연구

Guokan Shang; Hadi Abdine; Ahmad Chamma; Amr Mohamed; Mohamed Anwar; Abdelaziz Bounhar; Omar El Herraoui; Preslav Nakov; Michalis Vazirgiannis; Eric Xing
Nile-Chat: 이집트 언어 모델의 아랍 문자와 라틴 문자에 대한 연구
초록

우리는 이집트 방언을 위한 Nile-Chat-4B, 3x4B-A6B, 그리고 12B 모델을 소개합니다. 이 모델들은 아랍 문자와 라틴 문자로 작성된 텍스트를 이해하고 생성하도록 독특하게 설계되었습니다. 특히 Nile-Chat-3x4B-A6B에서는 Branch-Train-MiX 전략을 활용하여 스크립트 전문가들을 단일 MoE(Mixture of Experts) 모델로 통합하는 새로운 언어 적응 접근법을 제시합니다. 우리의 Nile-Chat 모델들은 LLaMa, Jais, ALLaM 등 선도적인 다국어 및 아랍어 LLMs보다 새로 도입된 이집트 평가 벤치마크에서 크게 우수한 성능을 보입니다. 이 벤치마크는 이해와 생성 작업 모두를 포함합니다. 특히 12B 모델은 라틴 문자 벤치마크에서 Qwen2.5-14B-Instruct에 비해 14.4%의 성능 향상을 보였습니다. 모든 자원은 공개적으로 이용 가능합니다. 우리는 이 연구가 현대 LLM 개발에서 종종 간과되는 쌍문자 언어에 대한 LLM 적응의 포괄적인 방법론을 제시한다고 믿습니다.