
要約
大規模言語モデル(LLMs)の成功を受けて、多数の生成型視覚言語モデル(GVLMs)がマルチモーダル指示チューニングを用いて構築されてきた。しかし、GVLMsのマルチモーダル構成的推論能力に関する評価はまだ十分に検討されていない。本研究では、GVLMsの構成性を評価するための現在の評価指標(VisualGPTScoreなど)およびベンチマークを検討した。その結果、現行のベンチマークに存在する構文的バイアスが、GVLMsの言語処理能力によって利用可能であることが明らかになった。このバイアスにより、VisualGPTScoreはGVLMsの性能を適切に評価するための十分な指標とはなり得ないことが示された。これを解決するために、まず、LLMsを活用してこのバイアスを定量化するための「SyntaxBias Score」を提案する。さらに、GVLMsが構文的正しさへの内因的な傾向に起因する脆弱性を評価するための新たな難易度の高いタスクを導入した。バイアス低減済みのデータセットと新設タスクを基に、本研究では新しいベンチマーク「SyntActically DE-biased benchmark(SADE)」を提案する。本研究は、GVLMsの構成性に関する偏りのないベンチマークを提供し、今後の関連研究の発展を促進するものである(コードおよびデータセットは https://github.com/TeleeMa/SADE にて公開)。