GPT-3を用いた少サンプル知識ベースVQAに関する実証的研究

知識ベース型視覚質問応答(Knowledge-based Visual Question Answering: VQA)は、画像に含まれない外部知識を必要とする質問に答えるタスクである。従来の手法では、まず外部リソースから知識を取得し、その後、選択された知識、入力画像、質問を統合して推論を行い、回答を予測するという二段階アプローチを採用している。しかし、この二段階アプローチは、性能の限界を生じる可能性のある不一致を引き起こす。例えば、取得された知識がノイズを含み、質問に対して関連性が薄い場合があり、推論段階で再埋め込みされた知識特徴は、知識ベース(KB)における元の意味から逸脱する可能性がある。この課題に対処するために、本研究では「PICa(Prompting Image Captions for GPT-3 in Knowledge-based VQA)」と呼ばれる、シンプルでありながら効果的な手法を提案する。PICaは、画像キャプションを用いてGPT-3をプロンプトする方式であり、知識ベース型VQAにおいてGPT-3の潜在的な知識リトリーブ力と質問応答能力を活用する。従来の研究で用いられる構造化された知識ベース(KB)ではなく、GPT-3を非構造的かつ暗黙的なKBとして扱い、関連知識を一括して取得・処理する。具体的には、まず画像をGPT-3が理解可能なキャプション(またはタグ)に変換し、その後、少数の文脈内(in-context)のVQA例を提示するだけで、GPT-3を少サンプル(few-shot)の枠組みでVQAタスクに適応させる。さらに、性能向上を図るために、以下の2点を精査した:(i)画像の内容を最も適切に表現するテキスト形式は何か、(ii)文脈内例をどのように選定・利用すれば効果的か。PICaは、マルチモーダルタスクにおけるGPT-3の初めての実用例を実現した。OK-VQAデータセットにおいて、わずか16個の例を用いるだけで、従来の教師あり最良手法を絶対値で+8.6ポイント上回った。また、VQAv2データセットでもベンチマークを実施した結果、PICaは良好な少サンプル性能を示した。