HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 7 أيام

AraLingBench: معيار مُعلَّم بالبشر لتقييم القدرات اللغوية للغة العربية في نماذج اللغة الكبيرة

Mohammad Zbib Hasan Abed Al Kader Hammoud Sina Mukalled Nadine Rizk Fatima Karnib Issam Lakkis Ammar Mohanna Bernard Ghanem

AraLingBench: معيار مُعلَّم بالبشر لتقييم القدرات اللغوية للغة العربية في نماذج اللغة الكبيرة

الملخص

نقدّم AraLingBench: معيار مُعلّق بالكامل بواسطة البشر لتقييم الكفاءة اللغوية العربية للنماذج اللغوية الكبيرة (LLMs). يغطي المعيار خمسة محاور رئيسية: القواعد النحوية، والتركيب الصرفي، والإملاء، وفهم القراءة، والتركيب الجُمَلِي، من خلال 150 سؤالاً متعدّد الخيارات صُمّمها خبراء، والتي تقيس مباشرة الفهم الهيكلي للغة. وقد أظهر تقييم 35 نموذجًا لغويًا عربيًا ومتعدد اللغات أن النماذج الحالية تُظهر كفاءة قوية على المستوى السطحي، لكنها تواجه صعوبات في التفكير النحوي والتركيب الجُمَلِي العميق. يُبرز AraLingBench فجوة مستمرة بين التصنيفات العالية في المعايير القائمة على المعرفة وبين الإتقان الحقيقي للغة، مُظهرًا أن العديد من النماذج تنجح من خلال الحفظ أو التعرف على الأنماط بدلًا من الفهم الحقيقي. وبعزل وقياس المهارات اللغوية الأساسية، يوفّر AraLingBench إطارًا تشخيصيًا لتطوير النماذج اللغوية الكبيرة العربية. وتم إتاحة كود التقييم الكامل بشكل عام على منصة GitHub.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
AraLingBench: معيار مُعلَّم بالبشر لتقييم القدرات اللغوية للغة العربية في نماذج اللغة الكبيرة | الأوراق البحثية | HyperAI