Command Palette
Search for a command to run...
Mohammad Zbib Hasan Abed Al Kader Hammoud Sina Mukalled Nadine Rizk Fatima Karnib Issam Lakkis Ammar Mohanna Bernard Ghanem

要約
本稿では、大規模言語モデル(LLM)のアラビア語言語能力を評価するための完全に人間がアノテーションを施したベンチマーク「AraLingBench」を提示する。このベンチマークは、文法、語彙構造(モルフォロジー)、綴り、読解、構文の5つの主要分野をカバーし、専門家が設計した150問の選択式問題によって、言語の構造的理解を直接的に評価する。35種類のアラビア語専用およびバイリンガルLLMを評価した結果、現行モデルは表面的な能力に優れているものの、より深い文法的・構文的推論には苦戦していることが明らかになった。AraLingBenchは、知識ベースのベンチマークで高得点を記録する一方で、真の言語習得に至らない一貫したギャップを浮き彫りにし、多くのモデルが本質的な理解ではなく、記憶やパターン認識によって成功していることを示している。このように、基本的な言語スキルを分離・測定することで、AraLingBenchはアラビア語LLMの開発に向けた診断的フレームワークを提供する。評価コードの全容はGitHub上で公開されている。