HyperAIHyperAI

Command Palette

Search for a command to run...

Nile-Chat: 이집트 언어 모델의 아랍 문자와 라틴 문자에 대한 연구

Guokan Shang Hadi Abdine Ahmad Chamma Amr Mohamed Mohamed Anwar Abdelaziz Bounhar Omar El Herraoui Preslav Nakov Michalis Vazirgiannis Eric Xing

초록

우리는 이집트 방언을 위한 Nile-Chat-4B, 3x4B-A6B, 그리고 12B 모델을 소개합니다. 이 모델들은 아랍 문자와 라틴 문자로 작성된 텍스트를 이해하고 생성하도록 독특하게 설계되었습니다. 특히 Nile-Chat-3x4B-A6B에서는 Branch-Train-MiX 전략을 활용하여 스크립트 전문가들을 단일 MoE(Mixture of Experts) 모델로 통합하는 새로운 언어 적응 접근법을 제시합니다. 우리의 Nile-Chat 모델들은 LLaMa, Jais, ALLaM 등 선도적인 다국어 및 아랍어 LLMs보다 새로 도입된 이집트 평가 벤치마크에서 크게 우수한 성능을 보입니다. 이 벤치마크는 이해와 생성 작업 모두를 포함합니다. 특히 12B 모델은 라틴 문자 벤치마크에서 Qwen2.5-14B-Instruct에 비해 14.4%의 성능 향상을 보였습니다. 모든 자원은 공개적으로 이용 가능합니다. 우리는 이 연구가 현대 LLM 개발에서 종종 간과되는 쌍문자 언어에 대한 LLM 적응의 포괄적인 방법론을 제시한다고 믿습니다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
Nile-Chat: 이집트 언어 모델의 아랍 문자와 라틴 문자에 대한 연구 | 문서 | HyperAI초신경