ArtQuest: مواجهة التحيزات اللغوية الخفية في ArtVQA

تم دراسة مهمة الإجابة على الأسئلة البصرية (VQA) بشكل واسع على صور واقعية عامة المجال. لا تُعد عملية نقل الرؤى من نموذج VQA العام إلى المجال الفني (ArtVQA) أمرًا سهلاً، إذ تتطلب النماذج في هذا المجال القدرة على التعرف على المفاهيم المجردة، وتفاصيل حركات الفرشاة وأنماط اللوحة في البيانات البصرية، بالإضافة إلى امتلاك معرفة خلفية حول الفن. ويُفاقم هذا التحدي نقص البيانات عالية الجودة. في هذه الدراسة، نسلط الضوء على التحيّزات اللغوية الخفية الموجودة في مجموعة بيانات AQUA، وهي المجموعة الوحيدة المتاحة علنًا كمقياس معياري لـ ArtVQA. ونتيجة لذلك، يمكن الإجابة على معظم الأسئلة دون الحاجة إلى الرجوع إلى المعلومات البصرية، مما يجعل الحرف "V" في ArtVQA غير ذي أهمية حقيقية. وللتغلب على هذه المشكلة، قمنا بإنشاء مجموعة بيانات بسيطة ولكنها عملية تُسمى ArtQuest، باستخدام المعلومات الهيكلية المستمدة من مجموعة SemArt. تُتاح مجموعة البيانات والمسار (pipeline) لإعادة إنتاج نتائجنا بشكل عام على الرابط التالي: https://github.com/bletib/artquest.