HyperAI
il y a 2 jours

Nile-Chat : Modèles de langage égyptiens pour les scripts arabes et latins

Guokan Shang; Hadi Abdine; Ahmad Chamma; Amr Mohamed; Mohamed Anwar; Abdelaziz Bounhar; Omar El Herraoui; Preslav Nakov; Michalis Vazirgiannis; Eric Xing
Nile-Chat : Modèles de langage égyptiens pour les scripts arabes et latins
Résumé

Nous présentons Nile-Chat-4B, 3x4B-A6B et 12B, une collection de modèles de langage à grande échelle (LLMs) spécialement conçus pour le dialecte égyptien, capables de comprendre et de générer des textes écrits en caractères arabes et latins. Plus précisément, avec Nile-Chat-3x4B-A6B, nous introduisons une nouvelle approche d'adaptation linguistique en utilisant la stratégie Branch-Train-MiX pour fusionner des experts spécialisés dans les scripts, au sein d'un seul modèle MoE (Mixture of Experts). Nos modèles Nile-Chat surpassent significativement les modèles multilingues et arabophones de pointe tels que LLaMa, Jais et ALLaM sur nos nouveaux benchmarks d'évaluation égyptiens, qui couvrent à la fois des tâches de compréhension et de génération. Notamment, notre modèle 12B offre une amélioration de performance de 14,4 % par rapport à Qwen2.5-14B-Instruct sur les benchmarks en caractères latins. Toutes nos ressources sont disponibles publiquement. Nous croyons que ce travail présente une méthodologie complète pour l'adaptation des LLMs aux langues bialphabétiques, abordant un aspect souvent négligé dans le développement moderne des LLMs.