3ヶ月前

ベンチマーク

データセット

AIインフラストラクチャ

アプローチ／フレームワーク

Mohammad Zbib Hasan Abed Al Kader Hammoud Sina Mukalled Nadine Rizk Fatima Karnib Issam Lakkis Ammar Mohanna Bernard Ghanem

概要

本稿では、大規模言語モデル（LLM）のアラビア語言語能力を評価するための完全に人間がアノテーションを施したベンチマーク「AraLingBench」を提示する。このベンチマークは、文法、語彙構造（モルフォロジー）、綴り、読解、構文の5つの主要分野をカバーし、専門家が設計した150問の選択式問題によって、言語の構造的理解を直接的に評価する。35種類のアラビア語専用およびバイリンガルLLMを評価した結果、現行モデルは表面的な能力に優れているものの、より深い文法的・構文的推論には苦戦していることが明らかになった。AraLingBenchは、知識ベースのベンチマークで高得点を記録する一方で、真の言語習得に至らない一貫したギャップを浮き彫りにし、多くのモデルが本質的な理解ではなく、記憶やパターン認識によって成功していることを示している。このように、基本的な言語スキルを分離・測定することで、AraLingBenchはアラビア語LLMの開発に向けた診断的フレームワークを提供する。評価コードの全容はGitHub上で公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

3ヶ月前

ベンチマーク

データセット

AIインフラストラクチャ

アプローチ／フレームワーク

Mohammad Zbib Hasan Abed Al Kader Hammoud Sina Mukalled Nadine Rizk Fatima Karnib Issam Lakkis Ammar Mohanna Bernard Ghanem

概要

本稿では、大規模言語モデル（LLM）のアラビア語言語能力を評価するための完全に人間がアノテーションを施したベンチマーク「AraLingBench」を提示する。このベンチマークは、文法、語彙構造（モルフォロジー）、綴り、読解、構文の5つの主要分野をカバーし、専門家が設計した150問の選択式問題によって、言語の構造的理解を直接的に評価する。35種類のアラビア語専用およびバイリンガルLLMを評価した結果、現行モデルは表面的な能力に優れているものの、より深い文法的・構文的推論には苦戦していることが明らかになった。AraLingBenchは、知識ベースのベンチマークで高得点を記録する一方で、真の言語習得に至らない一貫したギャップを浮き彫りにし、多くのモデルが本質的な理解ではなく、記憶やパターン認識によって成功していることを示している。このように、基本的な言語スキルを分離・測定することで、AraLingBenchはアラビア語LLMの開発に向けた診断的フレームワークを提供する。評価コードの全容はGitHub上で公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています