HyperAI

초록

우리는 대규모 언어 모델(Large Language Models, LLMs)의 아랍어 언어 능력을 평가하기 위한 완전히 인간이 주석을 달아 작성한 벤치마크인 AraLingBench를 제안한다. 이 벤치마크는 문법, 형태론, 철자, 독해 이해, 구문론이라는 다섯 가지 핵심 범주를 포함하며, 구조적 언어 이해를 직접적으로 평가하기 위해 전문가들이 설계한 150개의 다지선다형 질문으로 구성되어 있다. 아랍어 및 이중 언어 LLM 총 35개 모델을 평가한 결과, 현재의 모델들은 표면적인 수준에서는 뛰어난 능력을 보이지만, 깊이 있는 문법적 및 구문론적 추론에서는 어려움을 겪는 것으로 나타났다. AraLingBench는 지식 기반 벤치마크에서 높은 점수를 받는 것과 진정한 언어 숙련도 사이에 지속적인 격차가 존재함을 드러내며, 많은 모델이 진정한 이해보다는 기억 또는 패턴 인식을 통해 성공하고 있음을 보여준다. 기본적인 언어 능력을 분리하고 측정함으로써 AraLingBench는 아랍어 기반 LLM 개발을 위한 진단적 프레임워크를 제공한다. 전체 평가 코드는 GitHub에서 공개되어 있다.

AraLingBench: 대규모 언어 모델의 아랍어 언어 능력을 평가하기 위한 인간 주석 기반 벤치마크

Mohammad Zbib Hasan Abed Al Kader Hammoud Sina Mukalled Nadine Rizk Fatima Karnib Issam Lakkis Ammar Mohanna Bernard Ghanem

초록

AI로 AI 구축

Hyper Newsletters

Command Palette

AraLingBench: 대규모 언어 모델의 아랍어 언어 능력을 평가하기 위한 인간 주석 기반 벤치마크

Mohammad Zbib Hasan Abed Al Kader Hammoud Sina Mukalled Nadine Rizk Fatima Karnib Issam Lakkis Ammar Mohanna Bernard Ghanem

초록

AI로 AI 구축

Hyper Newsletters