Command Palette

Search for a command to run...

4ヶ月前

CLIPにおける視覚言語知識蒸留を用いたマルチモーダル生成の実現

{Anonymous}

CLIPにおける視覚言語知識蒸留を用いたマルチモーダル生成の実現

要約

近年、画像とテキストのペアデータを巨量に用いて双方向アーキテクチャ(例:CLIP)に基づく大規模な視覚言語事前学習(VLP)は、多モーダルなアライメントタスクにおいて優れた性能を示している。しかし、このアプローチには、テキストエンコーダーが弱いため、生成型の多モーダルタスクには対応できないという課題がある。この問題を解決するために、視覚言語知識蒸留(VLKD)を用いて、双方向VLPモデルに事前学習済み言語モデル(PLM)を追加する手法を提案する。これにより、多モーダル生成能力を有するモデルを実現する。VLKDは、初期から事前学習を行う場合と比べて、データおよび計算コストが非常に効率的である。実験結果から、提案モデルは、オープンエンド型の視覚的質問応答(VQA)や画像キャプション生成といった多モーダル生成タスクにおいて、優れたゼロショット性能を達成している。例えば、VQA 2.0データセットにおいて39.7%のゼロショット精度を達成し、従来の最先端ゼロショットモデルよりも14倍少ないパラメータ数でこれを上回った。さらに、VLKD処理後もPLMの元々のテキスト処理能力が維持されているため、本モデルは多モーダルタスクだけでなく、単モーダルタスクにも柔軟に対応可能な汎用性を持つ。

ベンチマーク

ベンチマーク方法論指標
image-captioning-on-coco-captionsVLKD (ViT-B/16)
BLEU-4: 16.7
CIDER: 58.3
METEOR: 19.7
SPICE: 13.4
visual-question-answering-on-ok-vqaVLKD(ViT-B/16)
Accuracy: 10.5
visual-question-answering-on-vqa-v2-test-devVLKD
Accuracy: 44.5
visual-question-answering-on-vqa-v2-valVLKD(ViT-B/16)
Accuracy: 38.6

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
CLIPにおける視覚言語知識蒸留を用いたマルチモーダル生成の実現 | 論文 | HyperAI超神経