Command Palette
Search for a command to run...
{Anonymous}

要約
近年、画像とテキストのペアデータを巨量に用いて双方向アーキテクチャ(例:CLIP)に基づく大規模な視覚言語事前学習(VLP)は、多モーダルなアライメントタスクにおいて優れた性能を示している。しかし、このアプローチには、テキストエンコーダーが弱いため、生成型の多モーダルタスクには対応できないという課題がある。この問題を解決するために、視覚言語知識蒸留(VLKD)を用いて、双方向VLPモデルに事前学習済み言語モデル(PLM)を追加する手法を提案する。これにより、多モーダル生成能力を有するモデルを実現する。VLKDは、初期から事前学習を行う場合と比べて、データおよび計算コストが非常に効率的である。実験結果から、提案モデルは、オープンエンド型の視覚的質問応答(VQA)や画像キャプション生成といった多モーダル生成タスクにおいて、優れたゼロショット性能を達成している。例えば、VQA 2.0データセットにおいて39.7%のゼロショット精度を達成し、従来の最先端ゼロショットモデルよりも14倍少ないパラメータ数でこれを上回った。さらに、VLKD処理後もPLMの元々のテキスト処理能力が維持されているため、本モデルは多モーダルタスクだけでなく、単モーダルタスクにも柔軟に対応可能な汎用性を持つ。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| image-captioning-on-coco-captions | VLKD (ViT-B/16) | BLEU-4: 16.7 CIDER: 58.3 METEOR: 19.7 SPICE: 13.4 |
| visual-question-answering-on-ok-vqa | VLKD(ViT-B/16) | Accuracy: 10.5 |
| visual-question-answering-on-vqa-v2-test-dev | VLKD | Accuracy: 44.5 |
| visual-question-answering-on-vqa-v2-val | VLKD(ViT-B/16) | Accuracy: 38.6 |