HyperAIHyperAI

Command Palette

Search for a command to run...

COREVQA: معيار تقييم الإجابة على الأسئلة البصرية القائمة على ملاحظة الجموع والاستنتاج المنطقي

Ishant Chintapatla Kazuma Choji Naaisha Agarwal Andrew Lin Hannah You Charles Duong et al

الملخص

في الآونة الأخيرة، تم تطوير العديد من المعايير والملفات البيانات لتقييم نماذج الرؤية واللغة (VLMs) باستخدام أزواج الإجابة على الأسئلة البصرية (VQA)، وقد أظهرت النماذج تحسّنًا كبيرًا في الدقة. ومع ذلك، فإن هذه المعايير نادرًا ما تختبر قدرة النموذج على إكمال الاستنتاج البصري بدقة، مثل قبول أو نفي فرضية معينة استنادًا إلى الصورة. ولحل هذه المشكلة، نقترح معيار "COREVQA" (ملاحظات الجماعة والاستنتاج الاستدلالي)، وهو معيار يحتوي على 5608 زوجًا من الصور والعبارات الصادقة أو الكاذبة المولدة بشكل اصطناعي، حيث تم استخلاص الصور من مجموعة بيانات CrowdHuman، بهدف تحفيز التفكير الاستنتاجي البصري في صور مزدحمة صعبة. تُظهر نتائجنا أن حتى أفضل النماذج أداءً تحقق دقة أقل من 80%، بينما تؤدي النماذج الأخرى أداءً أسوأ بشكل ملحوظ (من 39.98% إلى 69.95%). ويُبرز الفجوة الأداء الكبيرة هذه قيودًا جوهرية في قدرة نماذج الرؤية واللغة على التفكير في أنواع معينة من أزواج الصورة-السؤال في المشاهد المزدحمة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
COREVQA: معيار تقييم الإجابة على الأسئلة البصرية القائمة على ملاحظة الجموع والاستنتاج المنطقي | مستندات | HyperAI