2 days ago
Nile-Chat:用于阿拉伯文和拉丁字母的埃及语言模型
Guokan Shang; Hadi Abdine; Ahmad Chamma; Amr Mohamed; Mohamed Anwar; Abdelaziz Bounhar; Omar El Herraoui; Preslav Nakov; Michalis Vazirgiannis; Eric Xing

摘要
我们介绍了Nile-Chat-4B、3x4B-A6B和12B,这是一系列专为埃及方言设计的大型语言模型(LLMs),能够理解和生成用阿拉伯文和拉丁字母书写的文本。特别是通过Nile-Chat-3x4B-A6B,我们提出了一种新的语言适应方法,利用Branch-Train-MiX策略将特定脚本的专家模型合并到一个单一的混合专家(MoE)模型中。我们的Nile-Chat模型在新引入的埃及评估基准上显著优于领先的多语言和阿拉伯语大型语言模型,如LLaMa、Jais和ALLaM,这些基准涵盖了理解和生成任务。值得注意的是,我们的12B模型在拉丁字母基准上的性能比Qwen2.5-14B-Instruct提高了14.4%。所有资源均公开可用。我们认为这项工作提供了一种全面的方法,用于将大型语言模型适应双脚本语言,解决了现代大型语言模型开发中经常被忽视的一个方面。