3ヶ月前

概要

大規模な視覚言語モデル（LVLM）の堅牢性（ロバストネス）を評価することは、実世界における応用における持続的開発および責任ある導入にとって不可欠である。しかし、現在の堅牢性ベンチマークは、主に幻覚や誤解を招くテキスト入力に焦点を当てており、視覚的理解評価において同様に重要な課題である誤った視覚入力の影響についてはほとんど無視されている。この重要なギャップを埋めるために、我々は「MVI-Bench」という、誤った視覚入力がLVLMの堅牢性に与える影響を評価することを目的とした、初めての包括的ベンチマークを提案する。MVI-Benchは、基本的な視覚プリミティブに基づき、誤った視覚入力の3つの階層的レベル——視覚的概念（Visual Concept）、視覚的属性（Visual Attribute）、視覚的関係（Visual Relationship）——に焦点を当てた設計を採用している。この分類体系を用いて、6つの代表的なカテゴリを構成し、1,248件の専門家が注釈を付与したVQA（視覚言語質問応答）インスタンスを収集した。さらに、細粒度な堅牢性評価を可能にするために、新たな指標「MVI-Sensitivity」を導入した。18種類の最先端LVLMを対象とした実証的評価から、誤った視覚入力に対する顕著な脆弱性が明らかとなり、MVI-Benchを用いた詳細な分析により、より信頼性と堅牢性の高いLVLMの開発を支援する実用的な知見が得られた。本ベンチマークおよびコードベースは、https://github.com/chenyil6/MVI-Bench にて公開されている。

ソースPDF コードを表示