Prophet:知識ベース視覚質問応答における大規模言語モデルのプロンプト設計における補完的回答ヒューリスティクス

知識ベース型視覚質問応答(Knowledge-based Visual Question Answering, VQA)は、画像情報以外の外部知識を活用して質問に答える必要がある。初期の研究では、必要な知識を明示的な知識ベース(Knowledge Base, KB)から取得する方法が採用されたが、このアプローチは質問に関連のない情報を含むことが多く、モデルの性能を制限する要因となっていた。近年では、必要な知識を獲得するために強力な大規模言語モデル(Large Language Model, LLM)を暗黙的な知識エンジンとして用いるアプローチが注目されている。これらの手法は著しい成果を上げているものの、本研究では、提示されるテキスト入力が質問に必要な視覚的情報を十分に表現できていないため、LLMの潜在能力を十分に引き出せていないと指摘する。本論文では、知識ベース型VQAに適した、概念的に単純かつ柔軟で汎用性の高いフレームワーク「Prophet」を提案する。具体的には、外部知識を用いずに特定の知識ベース型VQAデータセット上で通常のVQAモデルを訓練した後、そのモデルから2種類の補完的な回答ヒューリスティクスを抽出する:回答候補(answer candidates)と回答に特化した例(answer-aware examples)。これらの2種類のヒューリスティクスを統合し、形式化されたプロンプトとして構成することで、LLMが画像と質問の両方の情報をより正確に理解できるようにし、より精度の高い回答を生成する。GPT-3を用いた実験では、Prophetは4つの困難な知識ベース型VQAデータセットにおいて、既存の最先端手法を顕著に上回る性能を達成した。Prophetは汎用性が高く、異なるVQAモデル(判別型および生成型の両方)と異なるLLM(商用およびオープンソースの両方)の組み合わせで適用可能である。さらに、Prophetは現代の大規模マルチモーダルモデルと異なる段階で統合可能であり、これを「Prophet++」と命名する。Prophet++は知識ベース型VQAタスクにおける能力をさらに向上させることが可能である。