3 个月前

Mohammad Zbib Hasan Abed Al Kader Hammoud Sina Mukalled Nadine Rizk Fatima Karnib Issam Lakkis Ammar Mohanna Bernard Ghanem

摘要

我们提出AraLingBench：一个全面由人工标注的基准测试，用于评估大语言模型（LLMs）在阿拉伯语语言能力方面的表现。该基准涵盖五个核心类别：语法、形态学、拼写、阅读理解和句法，包含150道由专家精心设计的多项选择题，直接评估模型对语言结构的理解能力。对35个阿拉伯语及双语大语言模型的评估结果显示，当前模型在表层语言能力上表现优异，但在深层语法与句法推理方面仍存在显著困难。AraLingBench揭示了知识型基准测试中高分表现与真正语言掌握能力之间的持续差距，表明许多模型的成功主要依赖于记忆或模式识别，而非真正的语言理解。通过分离并量化基础语言技能，AraLingBench为阿拉伯语大语言模型的开发提供了诊断性框架。完整的评估代码已公开发布于GitHub。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

Mohammad Zbib Hasan Abed Al Kader Hammoud Sina Mukalled Nadine Rizk Fatima Karnib Issam Lakkis Ammar Mohanna Bernard Ghanem

摘要

我们提出AraLingBench：一个全面由人工标注的基准测试，用于评估大语言模型（LLMs）在阿拉伯语语言能力方面的表现。该基准涵盖五个核心类别：语法、形态学、拼写、阅读理解和句法，包含150道由专家精心设计的多项选择题，直接评估模型对语言结构的理解能力。对35个阿拉伯语及双语大语言模型的评估结果显示，当前模型在表层语言能力上表现优异，但在深层语法与句法推理方面仍存在显著困难。AraLingBench揭示了知识型基准测试中高分表现与真正语言掌握能力之间的持续差距，表明许多模型的成功主要依赖于记忆或模式识别，而非真正的语言理解。通过分离并量化基础语言技能，AraLingBench为阿拉伯语大语言模型的开发提供了诊断性框架。完整的评估代码已公开发布于GitHub。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供