18日前

CLIPにおける視覚言語知識蒸留を用いたマルチモーダル生成の実現

{Anonymous}
CLIPにおける視覚言語知識蒸留を用いたマルチモーダル生成の実現
要約

近年、画像とテキストのペアデータを巨量に用いて双方向アーキテクチャ(例:CLIP)に基づく大規模な視覚言語事前学習(VLP)は、多モーダルなアライメントタスクにおいて優れた性能を示している。しかし、このアプローチには、テキストエンコーダーが弱いため、生成型の多モーダルタスクには対応できないという課題がある。この問題を解決するために、視覚言語知識蒸留(VLKD)を用いて、双方向VLPモデルに事前学習済み言語モデル(PLM)を追加する手法を提案する。これにより、多モーダル生成能力を有するモデルを実現する。VLKDは、初期から事前学習を行う場合と比べて、データおよび計算コストが非常に効率的である。実験結果から、提案モデルは、オープンエンド型の視覚的質問応答(VQA)や画像キャプション生成といった多モーダル生成タスクにおいて、優れたゼロショット性能を達成している。例えば、VQA 2.0データセットにおいて39.7%のゼロショット精度を達成し、従来の最先端ゼロショットモデルよりも14倍少ないパラメータ数でこれを上回った。さらに、VLKD処理後もPLMの元々のテキスト処理能力が維持されているため、本モデルは多モーダルタスクだけでなく、単モーダルタスクにも柔軟に対応可能な汎用性を持つ。