HyperAIHyperAI
منذ 5 أيام

COREVQA: معيار تقييم الإجابة على الأسئلة البصرية القائمة على ملاحظة الجموع والاستنتاج المنطقي

Ishant Chintapatla, Kazuma Choji, Naaisha Agarwal, Andrew Lin, Hannah You, Charles Duong, et al
COREVQA: معيار تقييم الإجابة على الأسئلة البصرية القائمة على ملاحظة الجموع والاستنتاج المنطقي
الملخص

في الآونة الأخيرة، تم تطوير العديد من المعايير والملفات البيانات لتقييم نماذج الرؤية واللغة (VLMs) باستخدام أزواج الإجابة على الأسئلة البصرية (VQA)، وقد أظهرت النماذج تحسّنًا كبيرًا في الدقة. ومع ذلك، فإن هذه المعايير نادرًا ما تختبر قدرة النموذج على إكمال الاستنتاج البصري بدقة، مثل قبول أو نفي فرضية معينة استنادًا إلى الصورة. ولحل هذه المشكلة، نقترح معيار "COREVQA" (ملاحظات الجماعة والاستنتاج الاستدلالي)، وهو معيار يحتوي على 5608 زوجًا من الصور والعبارات الصادقة أو الكاذبة المولدة بشكل اصطناعي، حيث تم استخلاص الصور من مجموعة بيانات CrowdHuman، بهدف تحفيز التفكير الاستنتاجي البصري في صور مزدحمة صعبة. تُظهر نتائجنا أن حتى أفضل النماذج أداءً تحقق دقة أقل من 80%، بينما تؤدي النماذج الأخرى أداءً أسوأ بشكل ملحوظ (من 39.98% إلى 69.95%). ويُبرز الفجوة الأداء الكبيرة هذه قيودًا جوهرية في قدرة نماذج الرؤية واللغة على التفكير في أنواع معينة من أزواج الصورة-السؤال في المشاهد المزدحمة.

COREVQA: معيار تقييم الإجابة على الأسئلة البصرية القائمة على ملاحظة الجموع والاستنتاج المنطقي | أحدث الأوراق البحثية | HyperAI