MVI-Bench: معيار شامل لتقييم المقاومة للمدخلات البصرية المضللة في نماذج LVLM
Huiyi Chen Jiawei Peng Dehai Min Changchang Sun Kaijie Chen Yan Yan Xu Yang Lu Cheng

الملخص
تقييم متانة النماذج الكبيرة للرؤية واللغة (LVLMs) أمر ضروري لتطويرها المستمر واعتمادها المسؤول في التطبيقات الواقعية. ومع ذلك، فإن المعايير الحالية لتقييم المتانة تركز غالبًا على التخيلات أو المدخلات النصية المضللة، بينما تتجاهل إلى حد كبير التحدي المماثل والبالغ الأهمية المتمثل في المدخلات البصرية المضللة عند تقييم الفهم البصري. لسد هذه الفجوة الهامة، نقدّم MVI-Bench، وهي أول معيار شامل مصمم خصيصًا لتقييم كيفية تأثير المدخلات البصرية المضللة على متانة نماذج LVLMs. يرتكز تصميم MVI-Bench على مبادئ بصرية أساسية، ويركز على ثلاث مستويات هرمية من المدخلات البصرية المضللة: المفهوم البصري، والسمة البصرية، والعلاقة البصرية. وباستخدام هذا التصنيف، نقوم بجمع ست فئات ممثلة وتوثيق 1,248 مثالًا خبيرًا لأسئلة وإجابات مبنية على الصور (VQA). ولتمكين تقييم متانة دقيق على مستوى دقيق، نقدّم أيضًا مقياسًا جديدًا يُسمى MVI-Sensitivity، الذي يُوصَف به متانة نماذج LVLM على مستوى دقيق. أظهرت النتائج التجريبية على 18 نموذجًا من أحدث نماذج LVLMs هشاشة واضحة تجاه المدخلات البصرية المضللة، كما تقدم تحليلات متعمقة على MVI-Bench رؤى قابلة للتنفيذ يمكن أن توجه تطوير نماذج LVLM أكثر موثوقية ومتانة. يمكن الوصول إلى المعيار وقاعدة التعليمات البرمجية من خلال الرابط التالي: https://github.com/chenyil6/MVI-Bench.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.