منذ 7 أشهر

الملخص

تم دراسة مهمة الإجابة على الأسئلة البصرية (VQA) بشكل واسع على صور واقعية عامة المجال. لا تُعد عملية نقل الرؤى من نموذج VQA العام إلى المجال الفني (ArtVQA) أمرًا سهلاً، إذ تتطلب النماذج في هذا المجال القدرة على التعرف على المفاهيم المجردة، وتفاصيل حركات الفرشاة وأنماط اللوحة في البيانات البصرية، بالإضافة إلى امتلاك معرفة خلفية حول الفن. ويُفاقم هذا التحدي نقص البيانات عالية الجودة. في هذه الدراسة، نسلط الضوء على التحيّزات اللغوية الخفية الموجودة في مجموعة بيانات AQUA، وهي المجموعة الوحيدة المتاحة علنًا كمقياس معياري لـ ArtVQA. ونتيجة لذلك، يمكن الإجابة على معظم الأسئلة دون الحاجة إلى الرجوع إلى المعلومات البصرية، مما يجعل الحرف "V" في ArtVQA غير ذي أهمية حقيقية. وللتغلب على هذه المشكلة، قمنا بإنشاء مجموعة بيانات بسيطة ولكنها عملية تُسمى ArtQuest، باستخدام المعلومات الهيكلية المستمدة من مجموعة SemArt. تُتاح مجموعة البيانات والمسار (pipeline) لإعادة إنتاج نتائجنا بشكل عام على الرابط التالي: https://github.com/bletib/artquest.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار