Command Palette

Search for a command to run...

7日前

MVI-Bench:LVLMにおける誤った視覚入力に対するロバスト性評価のための包括的ベンチマーク

Huiyi Chen Jiawei Peng Dehai Min Changchang Sun Kaijie Chen Yan Yan Xu Yang Lu Cheng

MVI-Bench:LVLMにおける誤った視覚入力に対するロバスト性評価のための包括的ベンチマーク

要約

大規模な視覚言語モデル(LVLM)の堅牢性(ロバストネス)を評価することは、実世界における応用における持続的開発および責任ある導入にとって不可欠である。しかし、現在の堅牢性ベンチマークは、主に幻覚や誤解を招くテキスト入力に焦点を当てており、視覚的理解評価において同様に重要な課題である誤った視覚入力の影響についてはほとんど無視されている。この重要なギャップを埋めるために、我々は「MVI-Bench」という、誤った視覚入力がLVLMの堅牢性に与える影響を評価することを目的とした、初めての包括的ベンチマークを提案する。MVI-Benchは、基本的な視覚プリミティブに基づき、誤った視覚入力の3つの階層的レベル——視覚的概念(Visual Concept)、視覚的属性(Visual Attribute)、視覚的関係(Visual Relationship)——に焦点を当てた設計を採用している。この分類体系を用いて、6つの代表的なカテゴリを構成し、1,248件の専門家が注釈を付与したVQA(視覚言語質問応答)インスタンスを収集した。さらに、細粒度な堅牢性評価を可能にするために、新たな指標「MVI-Sensitivity」を導入した。18種類の最先端LVLMを対象とした実証的評価から、誤った視覚入力に対する顕著な脆弱性が明らかとなり、MVI-Benchを用いた詳細な分析により、より信頼性と堅牢性の高いLVLMの開発を支援する実用的な知見が得られた。本ベンチマークおよびコードベースは、https://github.com/chenyil6/MVI-Bench にて公開されている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MVI-Bench:LVLMにおける誤った視覚入力に対するロバスト性評価のための包括的ベンチマーク | 論文 | HyperAI超神経