Command Palette
Search for a command to run...
Omer Nacar

摘要
以英语语料库为主要训练数据的大型语言模型(LLMs)往往难以捕捉阿拉伯语的语言与文化细微差别。为弥补这一差距,沙特数据与人工智能管理局(SDAIA)推出了专注于阿拉伯语的ALLaM系列模型。其中目前面向公众可用性能最强的模型是ALLaM-34B,该模型随后被HUMAIN采用,用于开发并部署基于该模型的HUMAIN Chat——一款封闭式对话式网络服务。本文对ALLaM-34B进行了扩展且更为精细的用户界面(UI)层级评估。我们采用了一套涵盖现代标准阿拉伯语(MSA)、五种地区方言、语码转换(code-switching)、事实知识、算术与时间推理、创造性生成以及对抗性安全性的提示(prompt)组合,共收集了115项输出结果(23个提示 × 5次运行),并由三位前沿大型语言模型评判者(GPT-5、Gemini 2.5 Pro、Claude Sonnet-4)对每项输出进行评分。我们计算了各评价维度的均值及其95%置信区间,分析了评分分布情况,并绘制了按方言划分的指标热力图。更新后的分析结果显示,ALLaM-34B在生成任务与语码转换任务上表现极为出色,两项平均得分均为4.92/5;在处理现代标准阿拉伯语方面亦表现稳健,得分为4.74/5;推理能力良好,平均得分为4.64/5;方言忠实度(dialect fidelity)显著提升,达到4.21/5;在安全相关提示测试中,表现稳定可靠,得分达4.54/5。综上所述,这些结果表明,ALLaM-34B是一款技术实力强劲、具备深厚文化根基的阿拉伯语大型语言模型,不仅在性能上表现卓越,也已具备在真实场景中部署应用的实际准备能力。