Command Palette
Search for a command to run...
Omer Nacar

要約
英語語料に基づいて主に訓練された大規模言語モデル(LLM)は、アラビア語の言語的・文化的ニュアンスを捉えることに対してしばしば困難を抱えている。この課題を解決するために、サウジデータ・AI庁(SDAIA)はアラビア語に特化したモデル群「ALLaMシリーズ」を発表した。公開されている中で最も高性能なモデルであるALLaM-34Bは、その後、HUMAINが採用し、同モデルを基盤にした閉鎖型会話型ウェブサービス「HUMAIN Chat」を開発・運用した。本論文では、ALLaM-34Bに対する拡張かつ洗練されたUIレベルの評価を提示する。現代標準アラビア語(MSA)、5つの地域方言、コードスイッチング、事実知識、算術および時系列推論、創造的生成、敵対的セキュリティといった多様なタスクをカバーするプロンプトパックを用い、全115件の出力(23のプロンプト × 5回の実行)を収集し、最先端の3つのLLMジャッジ(GPT-5、Gemini 2.5 Pro、Claude Sonnet-4)により各出力を評価した。95%信頼区間を伴うカテゴリ別平均値を算出し、スコア分布を分析し、方言別メトリクスのヒートマップを可視化した。更新された分析結果から、生成タスクおよびコードスイッチングタスクにおいて一貫して高い性能(両者平均4.92/5)を示す一方で、MSA処理(4.74/5)、論理的推論能力(4.64/5)、方言の忠実度(4.21/5)についても良好な結果が得られた。また、セキュリティ関連のプロンプトでは安定かつ信頼性の高い性能(4.54/5)を発揮した。これらの結果を総合すると、ALLaM-34Bは技術的強みと実用的実装可能性を兼ね備えた、文化的に根ざした強力なアラビア語LLMであることが明らかとなり、実世界への導入に十分な準備が整っていると評価できる。