منذ 16 أيام

كسر المعقولية: WHOOPS! معيار بصري-لغوي يعتمد على صور مُصَنَّعة ومركبة

Nitzan Bitton-Guetta, Yonatan Bitton, Jack Hessel, Ludwig Schmidt, Yuval Elovici, Gabriel Stanovsky, Roy Schwartz

الملخص

الصور الغريبة والغير عادية والغامضة تثير فضول المراقبين لأنها تتحدى المعرفة الشائعة. على سبيل المثال، تُظهر صورة نُشرت خلال كأس العالم 2022 نجوم كرة القدم الشهيرين ليونيل ميسي وكريستيانو رونالدو يلعبان الشطرنج، مما يُبقي على توقعنا بأن منافستهما يجب أن تحدث على ملعب كرة القدم، ولكن هذه الصورة تُحَوِّل هذا التوقع بأسلوب لطيف. يمكن للبشر التعرف بسهولة على هذه الصور غير التقليدية وفهمها، لكن هل يمكن للنماذج الذكية الاصطناعية فعل الشيء نفسه؟ نقدم "WHOOPS!"، مجموعة بيانات ونقطة مقارنة جديدة للمنطق البشري البصري. تتكون المجموعة من صور مُصممة بوعي لتحدي المعرفة الشائعة، تم إنشاؤها بواسطة مصممين باستخدام أدوات توليد الصور المتاحة للجمهور مثل Midjourney. نتناول عدة مهام مُحددة على هذه المجموعة. بالإضافة إلى وظائف وصف الصور، والتوافق بين الوسائط، والإجابة على الأسئلة البصرية، نُقدِّم مهمة صعبة في إنتاج التفسيرات، حيث يجب على النماذج تحديد سبب غرابة الصورة وشرحه. أظهرت نتائجنا أن النماذج الرائدة مثل GPT3 وBLIP2 لا تزال تُبقي على فجوة واضحة مقارنة بالأداء البشري في مجموعة WHOOPS!. نأمل أن تُشجع هذه المجموعة على تطوير نماذج ذكاء اصطناعي ذات قدرات أقوى في الاستدلال البصري المبني على المعرفة الشائعة. يمكن الوصول إلى البيانات والنماذج والكود عبر الموقع الرسمي للمشروع: whoops-benchmark.github.io