Command Palette

Search for a command to run...

2달 전

UI 수준에서의 ALLaM 34B 평가: HUMAIN Chat을 통한 아랍어 중심 LLM 측정

Omer Nacar

UI 수준에서의 ALLaM 34B 평가: HUMAIN Chat을 통한 아랍어 중심 LLM 측정

초록

영어 문헌을 주로 기반으로 훈련된 대규모 언어 모델(LLM)은 아랍어의 언어적·문화적 미묘함을 포착하는 데 어려움을 겪는 경우가 많다. 이 격차를 해소하기 위해 사우디 데이터 및 인공지능 기관(SDAIA)은 아랍어 중심 모델인 ALLaM 시리즈를 도입하였다. 공개된 모델 중 가장 강력한 성능을 갖춘 ALLaM-34B는 이후 HUMAIN이 채택하여, 이 모델 기반의 폐쇄형 대화형 웹 서비스인 HUMAIN Chat을 개발하고 배포하였다. 본 논문은 ALLaM-34B에 대한 확장되고 정교화된 UI 수준의 평가를 제시한다. 현대 표준 아랍어(MSA), 5개 지역 방언, 코드 스위칭, 사실 지식, 산술 및 시간적 추론, 창의적 생성, 악성 공격에 대한 안전성 등 다양한 유형의 프롬프트를 포함한 프롬프트 팩을 사용하여 총 115개의 출력 결과(23개 프롬프트 × 5회 실행)를 수집하였으며, 각 출력은 세 가지 최신 기술 기반 LLM 평가자(GPT-5, Gemini 2.5 Pro, Claude Sonnet-4)를 통해 평가하였다. 95% 신뢰구간을 기반으로 카테고리별 평균 점수를 산출하고, 점수 분포를 분석하며, 지역 방언별로 메트릭 히트맵을 시각화하였다. 보완된 분석 결과, 생성 및 코드 스위칭 작업에서 일관되게 높은 성능을 보였으며(각각 평균 4.92/5), MSA 처리 능력(4.74/5), 타당한 추론 능력(4.64/5), 방언 충실도 향상(4.21/5)에서도 우수한 성과를 기록하였다. 안전성 관련 프롬프트에 대해서도 안정적이고 신뢰할 수 있는 성능(4.54/5)을 보였다. 종합적으로 볼 때, 이러한 결과는 ALLaM-34B가 기술적 우수성과 실제 적용 가능성을 동시에 갖춘 견고하고 문화적으로 기반을 둔 아랍어 기반 LLM임을 입증하며, 실세계 도입에 대한 충분한 준비 상태를 갖추고 있음을 시사한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp