HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 7 أيام

MVI-Bench: معيار شامل لتقييم المقاومة للمدخلات البصرية المضللة في نماذج LVLM

Huiyi Chen Jiawei Peng Dehai Min Changchang Sun Kaijie Chen Yan Yan Xu Yang Lu Cheng

MVI-Bench: معيار شامل لتقييم المقاومة للمدخلات البصرية المضللة في نماذج LVLM

الملخص

تقييم متانة النماذج الكبيرة للرؤية واللغة (LVLMs) أمر ضروري لتطويرها المستمر واعتمادها المسؤول في التطبيقات الواقعية. ومع ذلك، فإن المعايير الحالية لتقييم المتانة تركز غالبًا على التخيلات أو المدخلات النصية المضللة، بينما تتجاهل إلى حد كبير التحدي المماثل والبالغ الأهمية المتمثل في المدخلات البصرية المضللة عند تقييم الفهم البصري. لسد هذه الفجوة الهامة، نقدّم MVI-Bench، وهي أول معيار شامل مصمم خصيصًا لتقييم كيفية تأثير المدخلات البصرية المضللة على متانة نماذج LVLMs. يرتكز تصميم MVI-Bench على مبادئ بصرية أساسية، ويركز على ثلاث مستويات هرمية من المدخلات البصرية المضللة: المفهوم البصري، والسمة البصرية، والعلاقة البصرية. وباستخدام هذا التصنيف، نقوم بجمع ست فئات ممثلة وتوثيق 1,248 مثالًا خبيرًا لأسئلة وإجابات مبنية على الصور (VQA). ولتمكين تقييم متانة دقيق على مستوى دقيق، نقدّم أيضًا مقياسًا جديدًا يُسمى MVI-Sensitivity، الذي يُوصَف به متانة نماذج LVLM على مستوى دقيق. أظهرت النتائج التجريبية على 18 نموذجًا من أحدث نماذج LVLMs هشاشة واضحة تجاه المدخلات البصرية المضللة، كما تقدم تحليلات متعمقة على MVI-Bench رؤى قابلة للتنفيذ يمكن أن توجه تطوير نماذج LVLM أكثر موثوقية ومتانة. يمكن الوصول إلى المعيار وقاعدة التعليمات البرمجية من خلال الرابط التالي: https://github.com/chenyil6/MVI-Bench.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MVI-Bench: معيار شامل لتقييم المقاومة للمدخلات البصرية المضللة في نماذج LVLM | الأوراق البحثية | HyperAI