HyperAIHyperAI

Command Palette

Search for a command to run...

CLIPは視覚・言語タスクにどの程度寄与できるか?

Sheng Shen Liunian Harold Li Hao Tan Mohit Bansal Anna Rohrbach Kai-Wei Chang Zhewei Yao Kurt Keutzer

概要

現在の大多数の視覚・言語(Vision-and-Language, V&L)モデルは、事前学習された視覚エンコーダーに依存しており、ウェブクロールデータと比較して相対的に小さな手動アノテーションデータセットを用いて視覚世界を認識している。しかし、大規模な事前学習が一般化性能の向上に寄与することが知られており、たとえば画像とキャプションの大量データセットで学習されたCLIP(Contrastive Language-Image Pre-training)は、さまざまな視覚タスクにおいて強力なゼロショット能力を示している。このCLIPの利点をさらに検証するため、以下の2つの典型的なシナリオにおいてCLIPをV&Lモデルの視覚エンコーダーとして用いるアプローチを提案する:1)タスク固有の微調整にCLIPを組み込む;2)CLIPをV&L事前学習と組み合わせ、下流タスクに転移学習する。本研究では、領域内アノテーションデータで学習された広く用いられている視覚エンコーダー(例:BottomUp-TopDown)と比較して、CLIPが顕著に優れた性能を発揮することを示した。多様なV&Lタスクにおいて競争力のある、あるいはより優れた結果を達成しただけでなく、視覚質問応答(Visual Question Answering)、視覚含意(Visual Entailment)、V&Lナビゲーションなどのタスクにおいて、新たなSOTA(State-of-the-Art)結果を樹立した。本研究のコードは、https://github.com/clip-vil/CLIP-ViL にて公開している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています