HyperAI

要約

近年、画像とテキストのペアデータを巨量に用いて双方向アーキテクチャ（例：CLIP）に基づく大規模な視覚言語事前学習（VLP）は、多モーダルなアライメントタスクにおいて優れた性能を示している。しかし、このアプローチには、テキストエンコーダーが弱いため、生成型の多モーダルタスクには対応できないという課題がある。この問題を解決するために、視覚言語知識蒸留（VLKD）を用いて、双方向VLPモデルに事前学習済み言語モデル（PLM）を追加する手法を提案する。これにより、多モーダル生成能力を有するモデルを実現する。VLKDは、初期から事前学習を行う場合と比べて、データおよび計算コストが非常に効率的である。実験結果から、提案モデルは、オープンエンド型の視覚的質問応答（VQA）や画像キャプション生成といった多モーダル生成タスクにおいて、優れたゼロショット性能を達成している。例えば、VQA 2.0データセットにおいて39.7%のゼロショット精度を達成し、従来の最先端ゼロショットモデルよりも14倍少ないパラメータ数でこれを上回った。さらに、VLKD処理後もPLMの元々のテキスト処理能力が維持されているため、本モデルは多モーダルタスクだけでなく、単モーダルタスクにも柔軟に対応可能な汎用性を持つ。

ベンチマーク	方法論	指標
image-captioning-on-coco-captions	VLKD (ViT-B/16)	BLEU-4: 16.7 CIDER: 58.3 METEOR: 19.7 SPICE: 13.4
visual-question-answering-on-ok-vqa	VLKD(ViT-B/16)	Accuracy: 10.5
visual-question-answering-on-vqa-v2-test-dev	VLKD	Accuracy: 44.5
visual-question-answering-on-vqa-v2-val	VLKD(ViT-B/16)	Accuracy: 38.6

ベンチマーク

方法論

指標

image-captioning-on-coco-captions

VLKD (ViT-B/16)

BLEU-4: 16.7

CIDER: 58.3

METEOR: 19.7

SPICE: 13.4

visual-question-answering-on-ok-vqa

VLKD(ViT-B/16)

Accuracy: 10.5

visual-question-answering-on-vqa-v2-test-dev

VLKD

Accuracy: 44.5

visual-question-answering-on-vqa-v2-val

VLKD(ViT-B/16)

Accuracy: 38.6

CLIPにおける視覚言語知識蒸留を用いたマルチモーダル生成の実現

{Anonymous}

要約

ベンチマーク

AI で AI を構築

Hyper Newsletters

Command Palette

CLIPにおける視覚言語知識蒸留を用いたマルチモーダル生成の実現

{Anonymous}

要約

ベンチマーク

AI で AI を構築

Hyper Newsletters