16日前

PromptCap:プロンプト誘導型タスク認識画像キャプション

Yushi Hu, Hang Hua, Zhengyuan Yang, Weijia Shi, Noah A Smith, Jiebo Luo
PromptCap:プロンプト誘導型タスク認識画像キャプション
要約

知識ベース型視覚質問応答(Knowledge-based Visual Question Answering, VQA)は、画像のみでは不十分で、世界知識をさらに必要とする質問に対応するタスクである。GPT-3などの大規模言語モデル(Language Models, LMs)は、強力な知識検索および推論能力を備えており、このタスクにおいて特に有効である。LMが画像を理解できるようにするため、従来の手法ではキャプション生成モデルを用いて画像をテキストに変換する。しかし、単一のキャプション文で画像を要約する際、どの視覚的エンティティを記述すべきかがしばしば明確でない。一般的な画像キャプションは、LMが視覚的質問に正確に回答する上で不可欠な視覚的詳細を欠くことが多い。この課題に対処するために、本研究では「PromptCap(Prompt誘導型画像キャプション)」を提案する。PromptCapは、画像とブラックボックス型LMとの間のより優れた接続を実現するためのキャプションモデルであり、一般的なキャプションとは異なり、生成されるキャプションに記述すべき視覚的エンティティを制御する自然言語プロンプトを入力として用いる。このプロンプトには、キャプションが支援すべき質問が含まれている。追加のアノテーションを避けるために、PromptCapはGPT-3を用いて合成された例と既存のデータセットを用いて訓練されている。我々は、GPT-3が画像キャプションを入力としてVQAを実行する既存のパイプライン上でPromptCapの有効性を実証した。その結果、一般的なキャプションに比べて大幅に性能向上を達成し、知識ベース型VQAタスクにおいて最先端の精度を記録した(OK-VQAで60.4%、A-OKVQAで59.6%)。WebQAにおけるゼロショット評価では、PromptCapが未観測のドメインにも良好に一般化することを示した。

PromptCap:プロンプト誘導型タスク認識画像キャプション | 最新論文 | HyperAI超神経