HyperAIHyperAI
منذ 11 أيام

IllusionVQA: مجموعة بيانات بصرية صعبة للخداع البصري لنماذج الرؤية واللغة

Haz Sameen Shahgir, Khondker Salman Sayeed, Abhik Bhattacharjee, Wasi Uddin Ahmad, Yue Dong, Rifat Shahriyar
IllusionVQA: مجموعة بيانات بصرية صعبة للخداع البصري لنماذج الرؤية واللغة
الملخص

أدى ظهور نماذج الرؤية واللغة (VLM) إلى تمكين الباحثين من دراسة الفهم البصري للشبكات العصبية باستخدام اللغة الطبيعية. فضلًا عن التصنيف والكشف عن الكائنات، تمتلك نماذج الرؤية واللغة القدرة على الفهم البصري والاستدلال المنطقي العام. وقد أدى هذا بشكل طبيعي إلى طرح السؤال التالي: كيف ترد نماذج الرؤية واللغة عند وجود صورة ذات طبيعة غير منطقية بشكل جوهري؟ وللإجابة على هذا السؤال، نقدّم مجموعة بيانات "IllusionVQA": وهي مجموعة متنوعة من الأوهام البصرية الصعبة والمشاهد التي يصعب تفسيرها، بهدف اختبار قدرة نماذج الرؤية واللغة في مهام تقييم الإجابة متعددة الخيارات المتميّزة في فهم الصورة والتحديد الناعم. حققت GPT4V، أفضل نموذج في الأداء، دقة قدرها 62.99% (باستخدام 4 أمثلة في السياق) في مهمة الفهم، ودقة 49.7% في مهمة التحديد الناعم (باستخدام 4 أمثلة في السياق وتقنية السلسلة التفكيرية). وتبين من التقييم البشري أن البشر حققوا دقة بلغت 91.03% في مهمة الفهم، و100% في مهمة التحديد الناعم. وخلصنا إلى أن التعلّم في السياق (ICL) والاستدلال من خلال السلسلة التفكيرية يُضعفان بشكل كبير أداء نموذج Gemini-Pro في مهمة التحديد الناعم. وعلى نحو مُتفرّع، كشفنا عن نقطة ضعف محتملة في قدرة نماذج الرؤية واللغة على التعلّم في السياق: فهي تفشل في تحديد الأوهام البصرية حتى عندما يكون الجواب الصحيح موجودًا في نافذة السياق كمثال من أمثلة التعلّم المحدود (few-shot).

IllusionVQA: مجموعة بيانات بصرية صعبة للخداع البصري لنماذج الرؤية واللغة | أحدث الأوراق البحثية | HyperAI