الفعالية غير المعقولة للخرائط القاعدية القواعدية في حل مهام Russian SuperGLUE

تُعتبر لوحات التصنيف مثل SuperGLUE حافزًا مهمًا للتطوير النشط في مجال معالجة اللغة الطبيعية (NLP)، نظرًا لأنها تُقدِّم معايير معيارية تتيح مقارنة عادلة بين النماذج اللغوية الحديثة. وقد دفعت هذه اللوحات إلى تعاون الفرق الهندسية الرائدة في العالم، واستثمار مواردها لحل مجموعة من المهام المتعلقة بالفهم العام للغة. وغالبًا ما تُزعم أن نتائجها قريبة من أداء الإنسان، أو حتى تفوقه في بعض الأحيان. وقد شجّع هذا التطور على تحليل أكثر شمولاً لمعرفة ما إذا كانت مجموعات البيانات المستخدمة في هذه المعايير تحتوي على مؤشرات إحصائية يمكن للنماذج القائمة على التعلم الآلي الاستفادة منها. وفي حالة مجموعات البيانات الإنجليزية، أُظهر أن هذه المجموعات غالبًا ما تحتوي على عيوب في الترميز (annotation artifacts)، ما يسمح بحل مهام معينة باستخدام قواعد بسيطة جدًا، والحصول على ترتيبات تنافسية.في هذه الورقة، تم إجراء تحليل مشابه على مجموعة بيانات SuperGLUE الروسية (RSG)، وهي مجموعة معايير وسجل تصنيف حديث نُشر مؤخرًا لقياس التقدم في فهم اللغة الروسية. ونُظهر أن بيانات الاختبار في RSG عرضة للاستغلال من خلال هيئات بسيطة (shallow heuristics). فغالبًا ما تتفوق الطرق القائمة على قواعد بسيطة أو تقترب من نتائج النماذج المُدرَّبة مسبقًا الشهيرة مثل GPT-3 أو BERT. ومن المرجح (كأبسط تفسير) أن جزءًا كبيرًا من أداء النماذج المتطورة (SOTA) في سجل RSG ناتج عن استغلال هذه الهيئات البسيطة، وليس له علاقة حقيقية بفهم اللغة. ونقدّم مجموعة من التوصيات حول كيفية تحسين هذه المجموعات، لجعل سجل RSG أكثر تمثيلاً للتقدم الحقيقي في مجال فهم اللغة الروسية.