5 个月前

摘要

以英语语料库为主要训练数据的大型语言模型（LLMs）往往难以捕捉阿拉伯语的语言与文化细微差别。为弥补这一差距，沙特数据与人工智能管理局（SDAIA）推出了专注于阿拉伯语的ALLaM系列模型。其中目前面向公众可用性能最强的模型是ALLaM-34B，该模型随后被HUMAIN采用，用于开发并部署基于该模型的HUMAIN Chat——一款封闭式对话式网络服务。本文对ALLaM-34B进行了扩展且更为精细的用户界面（UI）层级评估。我们采用了一套涵盖现代标准阿拉伯语（MSA）、五种地区方言、语码转换（code-switching）、事实知识、算术与时间推理、创造性生成以及对抗性安全性的提示（prompt）组合，共收集了115项输出结果（23个提示 × 5次运行），并由三位前沿大型语言模型评判者（GPT-5、Gemini 2.5 Pro、Claude Sonnet-4）对每项输出进行评分。我们计算了各评价维度的均值及其95%置信区间，分析了评分分布情况，并绘制了按方言划分的指标热力图。更新后的分析结果显示，ALLaM-34B在生成任务与语码转换任务上表现极为出色，两项平均得分均为4.92/5；在处理现代标准阿拉伯语方面亦表现稳健，得分为4.74/5；推理能力良好，平均得分为4.64/5；方言忠实度（dialect fidelity）显著提升，达到4.21/5；在安全相关提示测试中，表现稳定可靠，得分达4.54/5。综上所述，这些结果表明，ALLaM-34B是一款技术实力强劲、具备深厚文化根基的阿拉伯语大型语言模型，不仅在性能上表现卓越，也已具备在真实场景中部署应用的实际准备能力。

源 PDF