LOVA3:視覚質問応答、質問生成、評価の学習

質問への回答、質問の提起、評価は、世界を理解し、知識を獲得する上で人間が本来備え持つ三つの重要な能力である。これらの能力を強化することで、人間はデータをより効果的に活用し、より深い理解と優れた学習成果を達成できる。現在のマルチモーダル大規模言語モデル(MLLMs)は主に質問への回答に注力しており、質問の提起や評価の潜在能力を十分に活かせていない。人間の学習メカニズムに着想を得て、本研究では「視覚的質問への回答・提起・評価を学ぶ(Learning tO Visual question Answering, Asking and Assessment)」を意味する新規フレームワーク「LOVA3」を提案する。このアプローチでは、画像文脈における質問の提起と評価能力を育成することを目的として、二つの補完的訓練タスク「GenQA」と「EvalQA」を設計・構築する。質問提起能力の向上のため、マルチモーダル基礎タスクの包括的データセットを構築した。評価能力の強化のため、64,000件の訓練サンプル(正例と負例を均等に分割)と5,000件の検証・テストサンプルを含む新規ベンチマーク「EvalQABench」を導入した。本研究では、MLLMsに回答・提起・評価の三つの能力を付与することで、マルチモーダル理解力が向上し、全体的な性能が改善されるという仮説を提示する。この仮説を検証するため、LOVA3フレームワークを用いてMLLMsを訓練し、多様なマルチモーダルデータセットおよびベンチマーク上で評価を行った。実験結果は一貫した性能向上を示しており、これらの補完的タスクがMLLMsにおける包括的知能の発展において重要な役割を果たしていることを裏付けている。コードは以下のURLから公開されている:https://github.com/showlab/LOVA3。