WinoGrande: تحدي وينوغراد المعاكس على نطاق واسع

تحدي وينوغراد (WSC) (Levesque، Davis، و Morgenstern 2011)، وهو معيار لقياس الاستدلال الشائع، يتألف من مجموعة من 273 مشكلة مصممة بعناية لحل الضمائر والتي كانت في الأصل مصممة بحيث لا يمكن حلها بواسطة النماذج الإحصائية التي تعتمد على التفضيلات الاختيارية أو ارتباطات الكلمات. ومع ذلك، فقد حققت التطورات الحديثة في نماذج اللغة العصبية دقة تبلغ حوالي 90% في نسخ مختلفة من تحدي WSC. هذا يثير سؤالًا مهمًا حول ما إذا كانت هذه النماذج قد اكتسبت قدرات استدلال شائع متينة بالفعل أم أنها تعتمد على انحيازات زائفة في المجموعات البيانات مما يؤدي إلى تقدير مبالغ فيه لقدرات الاستدلال الشائع للآلة. لدراسة هذا السؤال، نقدم WinoGrande، وهو مجموعة بيانات كبيرة تتضمن 44 ألف مشكلة مستوحاة من تصميم WSC الأصلي ولكن مع تعديلات لتحسين حجم المجموعة والصعوبة. تتكون الخطوات الرئيسية لبناء المجموعة البيانات من (1) إجراء جمع البيانات الجماعي المصمم بعناية، يتبعه (2) خفض الانحياز النظامي باستخدام خوارزمية AfLite الجديدة التي تعمم ارتباطات الكلمات القابلة للكشف عنها من قبل البشر إلى ارتباطات التضمين القابلة للكشف عنها بواسطة الآلات. تحقق أفضل الطرق المتقدمة حاليًا على WinoGrande دقة تتراوح بين 59.4% و79.1%, وهي أقل بنسبة 15-35% عن أداء الإنسان البالغ 94.0%، وذلك بناءً على كمية البيانات التدريبية المسموح بها. علاوة على ذلك، فإننا ننشئ نتائج جديدة متقدمة على خمسة مقاييس ذات صلة - WSC (90.1%)، DPR (93.1%)، COPA (90.6%)، KnowRef (85.6%)، و Winogender (97.1%). لهذه النتائج دلالة مزدوجة: فمن ناحية، تظهر فعالية WinoGrande عند استخدامه كموارد للتعلم النقل؛ ومن ناحية أخرى,则引起担忧,即我们可能在所有这些基准测试中高估了机器常识的真实能力。我们强调在现有和未来的基准测试中减少算法偏差的重要性,以减轻这种高估。注:最后一句中的“则引起担忧”部分在阿拉伯语中通常会表达为“她引发了对...的担忧”,但在科技或学术写作中,为了保持正式和客观的语气,这里直接翻译为“这引起了担忧”。因此,最终版本如下:هذه النتائج لها دلالاتها المزدوجة: فمن ناحية، تظهر فعالية WinoGrande عند استخدامه كموارد للتعلم النقل؛ ومن ناحية أخرى,则她引发了对我们可能在所有这些基准测试中高估了机器常识的真实能力的担忧。我们强调在现有和未来的基准测试中减少算法偏差的重要性,以减轻这种高估。或者更自然的表达:هذه النتائج لها دلالاتها المزدوجة: فمن ناحية، تظهر فعالية WinoGrande عند استخدامه كموارد للتعلم النقل؛ ومن ناحية أخرى,则她引发了对我们可能在所有这些基准测试中过高估计机器常识的真实能力的担忧。نؤكد أهمية خفض الانحياز الخوارزمي في المقاييس الحالية والمستقبلية لتخفيف مثل هذا التقدير المبالغ فيه.