RUBi: تقليل التحيزات الأحادية النمط في إجابة الأسئلة البصرية

الإجابة على الأسئلة البصرية (VQA) هي مهمة الإجابة على أسئلة حول صورة. غالبًا ما تستغل بعض نماذج VQA التحيزات أحادية الوضع لتقديم الإجابة الصحيحة دون استخدام معلومات الصورة. نتيجة لذلك، تواجه هذه النماذج انخفاضًا كبيرًا في الأداء عند تقييمها على بيانات خارج توزيع مجموعة التدريب الخاصة بها. يشكل هذا المشكلة الحرجة عدم ملاءمتها للإعدادات الحقيقية.نقترح RUBi، وهي استراتيجية تعلم جديدة لتقليل التحيزات في أي نموذج VQA. تعمل هذه الاستراتيجية على تقليل أهمية الأمثلة الأكثر تحيزًا، أي تلك التي يمكن تصنيفها بشكل صحيح دون النظر إلى الصورة. إنها تحث ضمنيًا نموذج VQA على استخدام الوسيلتين الدخليتين بدلاً من الاعتماد على القواعد الإحصائية بين السؤال والإجابة. نستفيد من نموذج يستند فقط إلى السؤال للكشف عن التحيزات اللغوية من خلال تحديد متى يتم استخدام هذه القواعد غير المرغوب فيها. يمنع هذا النموذج النموذج الأساسي لـ VQA من تعلم هذه القواعد بتأثيره على توقعاته. يؤدي ذلك إلى ضبط الديناميكي للخسارة بهدف تعويض التحيزات. نؤكد إسهاماتنا من خلال تحقيق نتائج أفضل من الحالة المعاصرة لأحدث التقنيات في مجموعة البيانات VQA-CP v2. تم تصميم هذه المجموعة خصيصًا لتقييم متانة نماذج VQA عند تعرضها لتحيزات سؤال مختلفة أثناء الاختبار عما شوهد أثناء التدريب.كودنا متاح: github.com/cdancette/rubi.bootstrap.pytorch