HyperAIHyperAI

Command Palette

Search for a command to run...

Volcano:自己フィードバック誘導型修正を活用したマルチモーダル幻覚の軽減

Seongyun Lee Sue Hyun Park Yongrae Jo Minjoon Seo

概要

大規模なマルチモーダルモデルは、提示された視覚情報と整合性のない誤った応答を生成する「マルチモーダル幻覚(multimodal hallucination)」という問題に直面している。近年の研究では、この現象の原因の一つとして、視覚エンコーダーが画像に適切に「接地(grounding)」できていないことが指摘されている。本研究では、この問題を緩和するため、自己フィードバックを視覚的ヒントとして活用する新たなアプローチを提案する。このアプローチを基盤として、我々は「Volcano」と呼ばれる、マルチモーダル自己フィードバック誘導型の応答修正モデルを導入する。Volcanoは、提供された視覚情報をもとに初期応答に対して自然言語形式のフィードバックを生成し、そのフィードバックを活用して自身の初期応答を自己修正する。実験結果から、Volcanoはマルチモーダル幻覚を効果的に低減し、MMHal-Bench、POPE、GAVIEの各ベンチマークで最先端の性能を達成した。また、一般のマルチモーダル能力においても向上を示し、MM-VetおよびMMBenchにおいて従来のモデルを上回った。定性的な分析により、Volcanoのフィードバックが初期応答よりも画像に適切に接地していることが明らかになった。これは、Volcanoがフィードバック生成を通じて自身により豊かな視覚情報を供給でき、結果として自己修正による幻覚の是正が可能であることを示している。本研究では、モデル、データ、コードを公開しており、GitHubにて利用可能である:https://github.com/kaistAI/Volcano


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Volcano:自己フィードバック誘導型修正を活用したマルチモーダル幻覚の軽減 | 記事 | HyperAI超神経