AraLingBench: معيار مُعلَّم بالبشر لتقييم القدرات اللغوية للغة العربية في نماذج اللغة الكبيرة
Mohammad Zbib Hasan Abed Al Kader Hammoud Sina Mukalled Nadine Rizk Fatima Karnib Issam Lakkis Ammar Mohanna Bernard Ghanem

الملخص
نقدّم AraLingBench: معيار مُعلّق بالكامل بواسطة البشر لتقييم الكفاءة اللغوية العربية للنماذج اللغوية الكبيرة (LLMs). يغطي المعيار خمسة محاور رئيسية: القواعد النحوية، والتركيب الصرفي، والإملاء، وفهم القراءة، والتركيب الجُمَلِي، من خلال 150 سؤالاً متعدّد الخيارات صُمّمها خبراء، والتي تقيس مباشرة الفهم الهيكلي للغة. وقد أظهر تقييم 35 نموذجًا لغويًا عربيًا ومتعدد اللغات أن النماذج الحالية تُظهر كفاءة قوية على المستوى السطحي، لكنها تواجه صعوبات في التفكير النحوي والتركيب الجُمَلِي العميق. يُبرز AraLingBench فجوة مستمرة بين التصنيفات العالية في المعايير القائمة على المعرفة وبين الإتقان الحقيقي للغة، مُظهرًا أن العديد من النماذج تنجح من خلال الحفظ أو التعرف على الأنماط بدلًا من الفهم الحقيقي. وبعزل وقياس المهارات اللغوية الأساسية، يوفّر AraLingBench إطارًا تشخيصيًا لتطوير النماذج اللغوية الكبيرة العربية. وتم إتاحة كود التقييم الكامل بشكل عام على منصة GitHub.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.