16日前

CLIPは視覚・言語タスクにどの程度寄与できるか？

Sheng Shen, Liunian Harold Li, Hao Tan, Mohit Bansal, Anna Rohrbach, Kai-Wei Chang, Zhewei Yao, Kurt Keutzer

要約

現在の大多数の視覚・言語（Vision-and-Language, V&L）モデルは、事前学習された視覚エンコーダーに依存しており、ウェブクロールデータと比較して相対的に小さな手動アノテーションデータセットを用いて視覚世界を認識している。しかし、大規模な事前学習が一般化性能の向上に寄与することが知られており、たとえば画像とキャプションの大量データセットで学習されたCLIP（Contrastive Language-Image Pre-training）は、さまざまな視覚タスクにおいて強力なゼロショット能力を示している。このCLIPの利点をさらに検証するため、以下の2つの典型的なシナリオにおいてCLIPをV&Lモデルの視覚エンコーダーとして用いるアプローチを提案する：1）タスク固有の微調整にCLIPを組み込む；2）CLIPをV&L事前学習と組み合わせ、下流タスクに転移学習する。本研究では、領域内アノテーションデータで学習された広く用いられている視覚エンコーダー（例：BottomUp-TopDown）と比較して、CLIPが顕著に優れた性能を発揮することを示した。多様なV&Lタスクにおいて競争力のある、あるいはより優れた結果を達成しただけでなく、視覚質問応答（Visual Question Answering）、視覚含意（Visual Entailment）、V&Lナビゲーションなどのタスクにおいて、新たなSOTA（State-of-the-Art）結果を樹立した。本研究のコードは、https://github.com/clip-vil/CLIP-ViL にて公開している。