Command Palette

Search for a command to run...

7日前

AraLingBench:大規模言語モデルのアラビア語言語能力を評価するためのヒューマンアノテートベンチマーク

Mohammad Zbib Hasan Abed Al Kader Hammoud Sina Mukalled Nadine Rizk Fatima Karnib Issam Lakkis Ammar Mohanna Bernard Ghanem

AraLingBench:大規模言語モデルのアラビア語言語能力を評価するためのヒューマンアノテートベンチマーク

要約

本稿では、大規模言語モデル(LLM)のアラビア語言語能力を評価するための完全に人間がアノテーションを施したベンチマーク「AraLingBench」を提示する。このベンチマークは、文法、語彙構造(モルフォロジー)、綴り、読解、構文の5つの主要分野をカバーし、専門家が設計した150問の選択式問題によって、言語の構造的理解を直接的に評価する。35種類のアラビア語専用およびバイリンガルLLMを評価した結果、現行モデルは表面的な能力に優れているものの、より深い文法的・構文的推論には苦戦していることが明らかになった。AraLingBenchは、知識ベースのベンチマークで高得点を記録する一方で、真の言語習得に至らない一貫したギャップを浮き彫りにし、多くのモデルが本質的な理解ではなく、記憶やパターン認識によって成功していることを示している。このように、基本的な言語スキルを分離・測定することで、AraLingBenchはアラビア語LLMの開発に向けた診断的フレームワークを提供する。評価コードの全容はGitHub上で公開されている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
AraLingBench:大規模言語モデルのアラビア語言語能力を評価するためのヒューマンアノテートベンチマーク | 論文 | HyperAI超神経