HyperAI
vor 2 Tagen

Nile-Chat: Ägyptische Sprachmodelle für arabisches und lateinisches Alphabet

Guokan Shang; Hadi Abdine; Ahmad Chamma; Amr Mohamed; Mohamed Anwar; Abdelaziz Bounhar; Omar El Herraoui; Preslav Nakov; Michalis Vazirgiannis; Eric Xing
Nile-Chat: Ägyptische Sprachmodelle für arabisches und lateinisches Alphabet
Abstract

Wir stellen Nile-Chat-4B, 3x4B-A6B und 12B vor, eine Sammlung von LLMs (Large Language Models) für das ägyptische Dialekt, die einzigartig darauf ausgelegt sind, Texte in arabischer und lateinischer Schrift zu verstehen und zu generieren. Insbesondere bei Nile-Chat-3x4B-A6B führen wir einen neuen Ansatz zur Sprachanpassung ein, indem wir die Branch-Train-MiX-Strategie nutzen, um skript-spezifische Experten in ein einzelnes MoE (Mixture of Experts)-Modell zu integrieren. Unsere Nile-Chat-Modelle erzielen auf unseren neu eingeführten ägyptischen Evaluationsbenchmarks, die sowohl Verständnis- als auch Generierungsaufgaben abdecken, signifikant bessere Ergebnisse als führende multilingualisierte und arabische LLMs wie LLaMa, Jais und ALLaM. Bemerkenswerterweise erreicht unser 12B-Modell auf den Benchmarks für lateinische Schrift eine Leistungssteigerung von 14,4 % im Vergleich zu Qwen2.5-14B-Instruct. Alle unsere Ressourcen sind öffentlich zugänglich. Wir glauben, dass diese Arbeit eine umfassende Methodik für die Anpassung von LLMs an zweischriftliche Sprachen präsentiert und damit einen oft übersehenen Aspekt in der modernen Entwicklung von LLMs anspricht.