17日前
良いプロンプトは数百万のパラメータに匹敵する:視覚言語モデルにおけるリソース制約下のプロンプトベース学習
Woojeong Jin, Yu Cheng, Yelong Shen, Weizhu Chen, Xiang Ren

要約
大規模な事前学習済み視覚言語(VL)モデルは、わずかな例(few examples)を用いて新たなタスクを学習でき、ファインチューニングなしで新たなタスクに一般化する能力を有しています。しかし、これらのVLモデルはその巨大なサイズと遅い推論速度のため、実世界への適用が困難です。この課題を解決するために、本研究では提案するFewVLMという手法に基づき、少量のリソースでVLタスクを学習するプロンプトベースの学習法を検討しました。FewVLMは、最近の少サンプル学習モデルと比較して相対的に小型であり、シーケンスからシーケンスへの変換器モデルを、プレフィックス言語モデル化(PrefixLM)およびマスク言語モデル化(MaskedLM)を用いて事前学習しています。さらに、少サンプルタスクにおける多様なプロンプトの影響を分析しました。VQA(質疑応答)タスクにおける実験結果から、プロンプトベース学習を用いたFewVLMは、サイズが31倍大きいFrozenモデルよりも18.2ポイント高い性能を達成し、さらに246倍も大きなモデルPICaと同等の結果を実現しました。分析の結果、以下の知見が得られました:(1)プロンプトはゼロショット性能に顕著な影響を与えるが、少サンプル性能にはわずかな影響にとどまる;(2)ノイズを含むプロンプトを用いたモデルは、十分な訓練データが与えられた場合、手作業で設計されたプロンプトと同等の速度で学習を達成する;(3)MaskedLMはVQAタスクにおいて効果的である一方、PrefixLMはキャプション生成タスクの性能向上に寄与する。本研究のコードは、\url{https://github.com/woojeongjin/FewVLM} にて公開されています。