HyperAIHyperAI

Command Palette

Search for a command to run...

الفعالية غير المعقولة للخرائط القاعدية القواعدية في حل مهام Russian SuperGLUE

Tatyana Iazykova Denis Kapelyushnik Olga Bystrova Andrey Kutuzov

الملخص

تُعتبر لوحات التصنيف مثل SuperGLUE حافزًا مهمًا للتطوير النشط في مجال معالجة اللغة الطبيعية (NLP)، نظرًا لأنها تُقدِّم معايير معيارية تتيح مقارنة عادلة بين النماذج اللغوية الحديثة. وقد دفعت هذه اللوحات إلى تعاون الفرق الهندسية الرائدة في العالم، واستثمار مواردها لحل مجموعة من المهام المتعلقة بالفهم العام للغة. وغالبًا ما تُزعم أن نتائجها قريبة من أداء الإنسان، أو حتى تفوقه في بعض الأحيان. وقد شجّع هذا التطور على تحليل أكثر شمولاً لمعرفة ما إذا كانت مجموعات البيانات المستخدمة في هذه المعايير تحتوي على مؤشرات إحصائية يمكن للنماذج القائمة على التعلم الآلي الاستفادة منها. وفي حالة مجموعات البيانات الإنجليزية، أُظهر أن هذه المجموعات غالبًا ما تحتوي على عيوب في الترميز (annotation artifacts)، ما يسمح بحل مهام معينة باستخدام قواعد بسيطة جدًا، والحصول على ترتيبات تنافسية.في هذه الورقة، تم إجراء تحليل مشابه على مجموعة بيانات SuperGLUE الروسية (RSG)، وهي مجموعة معايير وسجل تصنيف حديث نُشر مؤخرًا لقياس التقدم في فهم اللغة الروسية. ونُظهر أن بيانات الاختبار في RSG عرضة للاستغلال من خلال هيئات بسيطة (shallow heuristics). فغالبًا ما تتفوق الطرق القائمة على قواعد بسيطة أو تقترب من نتائج النماذج المُدرَّبة مسبقًا الشهيرة مثل GPT-3 أو BERT. ومن المرجح (كأبسط تفسير) أن جزءًا كبيرًا من أداء النماذج المتطورة (SOTA) في سجل RSG ناتج عن استغلال هذه الهيئات البسيطة، وليس له علاقة حقيقية بفهم اللغة. ونقدّم مجموعة من التوصيات حول كيفية تحسين هذه المجموعات، لجعل سجل RSG أكثر تمثيلاً للتقدم الحقيقي في مجال فهم اللغة الروسية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp