Tao Zhang Yuyang Hong Yang Xia Kun Ding Zeyu Zhang Ying Wang Shiming Xiang Chunhong Pan

要約
近年、マルチモーダル大規模言語モデル(MLLM)の進展により、さまざまなベンチマークにおいて顕著な進歩が達成されている。しかし、赤外線画像の理解能力については、依然として検討が不足している。このギャップを埋めるために、本研究では赤外線画像のマルチモーダル理解を評価するための高品質なベンチマーク「IF-Bench」を初めて提案する。IF-Benchは、23の赤外線データセットから収集された499枚の画像と、10の重要な画像理解次元をカバーする680の丁寧に選定された視覚的質問・回答ペアから構成されている。このベンチマークを基盤として、循環評価、二言語評価、ハイブリッド判断戦略を用いて、40以上のオープンソースおよびクローズドソースMLLMを体系的に評価した。分析の結果、モデルの規模、アーキテクチャ、推論パラダイムが赤外線画像理解に与える影響が明らかとなり、本分野における貴重な知見が得られた。さらに、訓練を必要としない生成型視覚プロンプティング(GenViP)手法を提案する。この手法は、高度な画像編集モデルを活用して赤外線画像を意味的・空間的に整合したRGB画像に変換することで、ドメイン分布のずれを緩和する。広範な実験により、本手法が多数のMLLMにおいて一貫して顕著な性能向上をもたらすことが実証された。