AUTOHALLUSION: 視覚言語モデルのための自動幻覚ベンチマーク生成

大規模視覚言語モデル(LVLMs)の幻覚現象:画像中の特定の文脈ヒントが、異常または仮想的な物体に関する言語モジュールの過信かつ誤った推論を引き起こす可能性がある。いくつかのベンチマークがLVLMの幻覚現象を調査するために開発されているが、それらは主に手作業で作成された特殊なケースに依存しており、その失敗パターンは一般化しにくい。また、これらのケースでの微調整は、ベンチマークの有効性を損なう可能性がある。これらの課題を解決するため、私たちは初めて自動ベンチマーク生成アプローチであるAUTOHALLUSIONを開発した。このアプローチは主要な戦略を用いて多様な幻覚例を作成する。AUTOHALLUSIONは、LVLMの言語モジュールから文脈ヒントを探し出し、それらを使用して画像を合成する方法として以下の3つを採用している:1. 文脈ヒントに対して異常な物体を追加する。2. 同時に存在する2つの物体について、一方を残し他方を取り除く。3. 文脈ヒントと密接に関連した物体を取り除く。次に、正解が言語モジュールの事前知識と矛盾するような画像に基づいた質問を生成する。モデルは文脈バイアスや分散要素を超えて正解に到達しなければならないが、誤ったまたは一貫性のない回答は幻覚現象を示すものとなる。AUTOHALLUSIONにより、最小限のコストで新しいベンチマークを作成することが可能となり、手作業で作成されたベンチマークの脆弱性を克服できる。さらに、一般的な失敗パターンと原因も明らかになり、幻覚現象の検出、回避、または制御に対する重要な洞察を得ることができる。最上位クラスのLVLMs(例:GPT-4V(ision)、Gemini Pro Vision、Claude 3、LLaVA-1.5)に対する包括的な評価では、AUTOHALLUSIONによって生成された合成データセットおよび実世界データセットにおいて97.7%および98.7%という高い幻覚誘導成功率が示された。これは幻覚現象との長期的な戦いへの道を開くものである。