ما وراء التحيزات القائمة على الأسئلة: تقييم التعلم السريع متعدد الوسائط في الإجابة على الأسئلة البصرية

نُقدِّم منهجية تقييم لمهام الإجابة على الأسئلة المرئية (VQA) بهدف تحسين تشخيص حالات التعلّم المُختصر (shortcut learning). تحدث هذه الحالات عندما يستغل النموذج انتظامات إحصائية وهمية لإعطاء إجابات صحيحة، دون أن يُطبّق الفعل المطلوب فعليًا. هناك حاجة إلى تحديد الاختزالات الممكنة في مجموعة البيانات وتقييم استخدامها قبل نشر النموذج في البيئة الحقيقية. ركّز المجتمع البحثي في مجال VQA بشكل حصري على الاختزالات القائمة على الأسئلة، حيث يمكن للنموذج، على سبيل المثال، أن يجيب على السؤال "ما لون السماء؟" بـ"أزرق" بالاعتماد بشكل رئيسي على الPrior التدريبي المشروط بالسؤال، مع إعطاء وزن ضئيل للدليل البصري. نتقدّم خطوةً إضافية ونأخذ بعين الاعتبار اختزالات متعددة الوسائط التي تشمل كلاً من الأسئلة والصور. نبدأ بتحديد الاختزالات المحتملة في مجموعة التدريب الشهيرة VQA v2 من خلال استخراج قواعد تنبؤية بسيطة، مثل التكرار المشترك بين كلمات وعناصر بصرية. ثم نقدّم VQA-CounterExamples (VQA-CE)، وهي منهجية تقييم تعتمد على مجموعة من الامثلة المعاكسة (CounterExamples)، أي ثلاثيات الصورة-السؤال-الإجابة التي تؤدي فيها قواعدنا إلى إجابات خاطئة. استخدمنا هذه منهجية التقييم في دراسة واسعة النطاق للأساليب الحالية في VQA. وأظهرنا أن حتى النماذج المتطورة حاليًا تُظهر أداءً ضعيفًا، وأن التقنيات الحالية لتقليل التحيّزات لا تُظهر فعالية كبيرة في هذا السياق. تشير نتائجنا إلى أن الأبحاث السابقة حول التحيّزات القائمة على الأسئلة في VQA قد عالجت جزءًا واحدًا فقط من مشكلة معقدة. يمكن الوصول إلى الكود الخاص بمنهجيتنا من خلال الرابط التالي: https://github.com/cdancette/detect-shortcuts.