Command Palette

Search for a command to run...

2 个月前

ALLaM 34B 的 UI 级评估:通过 HUMAIN Chat 测量以阿拉伯语为中心的 LLM

Omer Nacar

ALLaM 34B 的 UI 级评估:通过 HUMAIN Chat 测量以阿拉伯语为中心的 LLM

摘要

以英语语料库为主要训练数据的大型语言模型(LLMs)往往难以捕捉阿拉伯语的语言与文化细微差别。为弥补这一差距,沙特数据与人工智能管理局(SDAIA)推出了专注于阿拉伯语的ALLaM系列模型。其中目前面向公众可用性能最强的模型是ALLaM-34B,该模型随后被HUMAIN采用,用于开发并部署基于该模型的HUMAIN Chat——一款封闭式对话式网络服务。本文对ALLaM-34B进行了扩展且更为精细的用户界面(UI)层级评估。我们采用了一套涵盖现代标准阿拉伯语(MSA)、五种地区方言、语码转换(code-switching)、事实知识、算术与时间推理、创造性生成以及对抗性安全性的提示(prompt)组合,共收集了115项输出结果(23个提示 × 5次运行),并由三位前沿大型语言模型评判者(GPT-5、Gemini 2.5 Pro、Claude Sonnet-4)对每项输出进行评分。我们计算了各评价维度的均值及其95%置信区间,分析了评分分布情况,并绘制了按方言划分的指标热力图。更新后的分析结果显示,ALLaM-34B在生成任务与语码转换任务上表现极为出色,两项平均得分均为4.92/5;在处理现代标准阿拉伯语方面亦表现稳健,得分为4.74/5;推理能力良好,平均得分为4.64/5;方言忠实度(dialect fidelity)显著提升,达到4.21/5;在安全相关提示测试中,表现稳定可靠,得分达4.54/5。综上所述,这些结果表明,ALLaM-34B是一款技术实力强劲、具备深厚文化根基的阿拉伯语大型语言模型,不仅在性能上表现卓越,也已具备在真实场景中部署应用的实际准备能力。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ALLaM 34B 的 UI 级评估:通过 HUMAIN Chat 测量以阿拉伯语为中心的 LLM | 论文 | HyperAI超神经