2ヶ月前

プラグアンドプレイVQA:ゼロショットVQAによる大規模事前学習モデルの結合とゼロトレーニング

Tiong, Anthony Meng Huat ; Li, Junnan ; Li, Boyang ; Savarese, Silvio ; Hoi, Steven C. H.
プラグアンドプレイVQA:ゼロショットVQAによる大規模事前学習モデルの結合とゼロトレーニング
要約

視覚質問応答(VQA)は、視覚と言語の推論の特徴的な例であり、ゼロショット設定下での挑戦的なタスクです。本研究では、ゼロショット VQA 用のモジュール型フレームワークである Plug-and-Play VQA(PNP-VQA)を提案します。既存の多くの手法が、事前学習済み言語モデル(PLM)を視覚モダリティに適応させるために大幅な調整を必要とするのに対し、PNP-VQA は PLM の追加学習を必要としません。代わりに、自然言語とネットワーク解釈を中間表現として使用することを提案します。この中間表現が事前学習済みモデルを結びつけます。まず、質問に基づいた情報豊富な画像キャプションを生成し、そのキャプションを PLM に渡して質問応答のコンテキストとして利用します。エンドツーエンドで学習された基準モデルを超えて、PNP-VQA はゼロショット VQAv2 および GQA において最先端の結果を達成しました。110億パラメータを持つ場合、800億パラメータを持つ Flamingo モデルよりも VQAv2 で8.5%高い性能を示しました。7億3800万パラメータの PLM を使用した場合でも、7億4000万パラメータを持つ FewVLM よりも GQA で9.1%の改善が見られました。コードは https://github.com/salesforce/LAVIS/tree/main/projects/pnp-vqa で公開されています。