LINGOLY: معيار ألغاز المنطق اللغوي على مستوى الأولمبياد في اللغات ذات الموارد المحدودة والمنقرضة

في هذا البحث، نقدم معيار لينغولي (LingOly)، وهو معيار جديد لتقييم قدرات التفكير المتقدمة في النماذج اللغوية الكبيرة. باستخدام ألغاز الأولمبياد اللغوية الصعبة، نقيم (أ) القدرات على تحديد تعميم الأنماط اللغوية في لغات ذات موارد قليلة جداً أو المنقرضة، و(ب) القدرات على اتباع تعليمات المهام المعقدة. يغطي معيار لينغولي أكثر من 90 لغة معظمها ذات موارد قليلة، مما يقلل من مشاكل تلوث البيانات، ويحتوي على 1,133 مشكلة بمختلف صيغها الست ومستوياتها الخمسة من صعوبة البشر. نقيم الأداء باستخدام الدقة المباشرة ومقارنة مع خط أساس لا يتضمن سياقًا للحد من الاعتماد على الحفظ. أظهرت النقاط التي حصل عليها 11 من أفضل النماذج اللغوية الكبيرة أن المعيار يعتبر تحديًا كبيرًا، وأن النماذج تؤدي بشكل سيء في المشكلات الأكثر صعوبة. في المشكلات الأصعب، لم يحقق حتى أفضل نموذج إلا دقة بنسبة 38.7٪، وهي تحسين بنسبة 24.7٪ مقارنة بخط الأساس الذي لا يتضمن سياقًا. عادةً ما تتفوق النماذج المغلقة الكبيرة على النماذج المفتوحة، وفي العادة كلما كانت اللغة غنية بالموارد كلما كانت النقاط أعلى. تشير هذه النتائج إلى أنه في غياب الحفظ، فإن التفكير متعدد الخطوات خارج المجال لا يزال تحديًا للنماذج اللغوية الحالية.