HyperAIHyperAI

Command Palette

Search for a command to run...

كسر المعقولية: WHOOPS! معيار بصري-لغوي يعتمد على صور مُصَنَّعة ومركبة

Nitzan Bitton-Guetta Yonatan Bitton Jack Hessel Ludwig Schmidt Yuval Elovici Gabriel Stanovsky Roy Schwartz

الملخص

الصور الغريبة والغير عادية والغامضة تثير فضول المراقبين لأنها تتحدى المعرفة الشائعة. على سبيل المثال، تُظهر صورة نُشرت خلال كأس العالم 2022 نجوم كرة القدم الشهيرين ليونيل ميسي وكريستيانو رونالدو يلعبان الشطرنج، مما يُبقي على توقعنا بأن منافستهما يجب أن تحدث على ملعب كرة القدم، ولكن هذه الصورة تُحَوِّل هذا التوقع بأسلوب لطيف. يمكن للبشر التعرف بسهولة على هذه الصور غير التقليدية وفهمها، لكن هل يمكن للنماذج الذكية الاصطناعية فعل الشيء نفسه؟ نقدم "WHOOPS!"، مجموعة بيانات ونقطة مقارنة جديدة للمنطق البشري البصري. تتكون المجموعة من صور مُصممة بوعي لتحدي المعرفة الشائعة، تم إنشاؤها بواسطة مصممين باستخدام أدوات توليد الصور المتاحة للجمهور مثل Midjourney. نتناول عدة مهام مُحددة على هذه المجموعة. بالإضافة إلى وظائف وصف الصور، والتوافق بين الوسائط، والإجابة على الأسئلة البصرية، نُقدِّم مهمة صعبة في إنتاج التفسيرات، حيث يجب على النماذج تحديد سبب غرابة الصورة وشرحه. أظهرت نتائجنا أن النماذج الرائدة مثل GPT3 وBLIP2 لا تزال تُبقي على فجوة واضحة مقارنة بالأداء البشري في مجموعة WHOOPS!. نأمل أن تُشجع هذه المجموعة على تطوير نماذج ذكاء اصطناعي ذات قدرات أقوى في الاستدلال البصري المبني على المعرفة الشائعة. يمكن الوصول إلى البيانات والنماذج والكود عبر الموقع الرسمي للمشروع: whoops-benchmark.github.io


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp