Command Palette

Search for a command to run...

7 天前

MVI-Bench:面向低视觉语言模型中误导性视觉输入鲁棒性评估的综合性基准

Huiyi Chen Jiawei Peng Dehai Min Changchang Sun Kaijie Chen Yan Yan Xu Yang Lu Cheng

MVI-Bench:面向低视觉语言模型中误导性视觉输入鲁棒性评估的综合性基准

摘要

评估大型视觉语言模型(Large Vision-Language Models, LVLMs)的鲁棒性对于其在现实世界应用中的持续发展与负责任部署至关重要。然而,现有的鲁棒性评测基准大多聚焦于幻觉现象或误导性文本输入,而对视觉理解评估中同样关键的误导性视觉输入问题关注不足。为填补这一重要空白,我们提出了MVI-Bench——首个专门针对误导性视觉输入如何削弱LVLM鲁棒性的综合性评测基准。MVI-Bench的设计基于基本的视觉原语,围绕三个层级的误导性视觉输入构建:视觉概念(Visual Concept)、视觉属性(Visual Attribute)与视觉关系(Visual Relationship)。基于这一分类体系,我们归纳出六类代表性场景,并整理了1,248个由专家精心标注的视觉问答(VQA)实例。为进一步实现细粒度的鲁棒性评估,我们引入了一种新型度量指标——MVI-Sensitivity,用于在细粒度层面刻画LVLM的鲁棒性表现。在18个前沿LVLM上的实证结果揭示了模型对误导性视觉输入存在显著脆弱性。通过对MVI-Bench的深入分析,我们获得了具有实践指导意义的洞见,可为构建更可靠、更具鲁棒性的LVLM提供参考。该评测基准及代码库已开源,访问地址为:https://github.com/chenyil6/MVI-Bench

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供