6ヶ月前

概要

大規模なマルチモーダルモデルは、提示された視覚情報と整合性のない誤った応答を生成する「マルチモーダル幻覚（multimodal hallucination）」という問題に直面している。近年の研究では、この現象の原因の一つとして、視覚エンコーダーが画像に適切に「接地（grounding）」できていないことが指摘されている。本研究では、この問題を緩和するため、自己フィードバックを視覚的ヒントとして活用する新たなアプローチを提案する。このアプローチを基盤として、我々は「Volcano」と呼ばれる、マルチモーダル自己フィードバック誘導型の応答修正モデルを導入する。Volcanoは、提供された視覚情報をもとに初期応答に対して自然言語形式のフィードバックを生成し、そのフィードバックを活用して自身の初期応答を自己修正する。実験結果から、Volcanoはマルチモーダル幻覚を効果的に低減し、MMHal-Bench、POPE、GAVIEの各ベンチマークで最先端の性能を達成した。また、一般のマルチモーダル能力においても向上を示し、MM-VetおよびMMBenchにおいて従来のモデルを上回った。定性的な分析により、Volcanoのフィードバックが初期応答よりも画像に適切に接地していることが明らかになった。これは、Volcanoがフィードバック生成を通じて自身により豊かな視覚情報を供給でき、結果として自己修正による幻覚の是正が可能であることを示している。本研究では、モデル、データ、コードを公開しており、GitHubにて利用可能である：https://github.com/kaistAI/Volcano

ソースPDF