HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 7 jours

MVI-Bench : Un benchmark complet pour évaluer la robustesse aux entrées visuelles trompeuses dans les LVLM

Huiyi Chen Jiawei Peng Dehai Min Changchang Sun Kaijie Chen Yan Yan Xu Yang Lu Cheng

MVI-Bench : Un benchmark complet pour évaluer la robustesse aux entrées visuelles trompeuses dans les LVLM

Résumé

Évaluer la robustesse des grands modèles vision-langage (LVLM) est essentiel pour leur développement continu et leur déploiement responsable dans des applications du monde réel. Toutefois, les benchmarks existants sur la robustesse se concentrent principalement sur les hallucinations ou les entrées textuelles trompeuses, en négligeant largement le défi tout aussi crucial posé par les entrées visuelles trompeuses dans l’évaluation de la compréhension visuelle. Pour combler cette lacune importante, nous introduisons MVI-Bench, le premier benchmark complet spécifiquement conçu pour évaluer l’impact des entrées visuelles trompeuses sur la robustesse des LVLM. Fondé sur des primitives visuelles fondamentales, le design de MVI-Bench repose sur trois niveaux hiérarchiques d’entrées visuelles trompeuses : le Concept visuel, l’Attribut visuel et la Relation visuelle. Grâce à cette taxonomie, nous avons identifié six catégories représentatives et constitué un ensemble de 1 248 instances de questions-réponses (VQA) soigneusement annotées par des experts. Pour faciliter une évaluation fine de la robustesse, nous proposons également MVI-Sensitivity, une nouvelle métrique qui caractérise la robustesse des LVLM à un niveau granulaire. Les résultats expérimentaux obtenus sur 18 LVLM d’avant-garde révèlent des vulnérabilités marquées face aux entrées visuelles trompeuses, et nos analyses approfondies sur MVI-Bench offrent des pistes concrètes pour guider le développement de LVLM plus fiables et robustes. Le benchmark et le code source sont disponibles à l’adresse suivante : https://github.com/chenyil6/MVI-Bench.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MVI-Bench : Un benchmark complet pour évaluer la robustesse aux entrées visuelles trompeuses dans les LVLM | Articles de recherche | HyperAI