2ヶ月前
EVA-CLIP-18B: CLIPを180億パラメータに拡大
Quan Sun; Jinsheng Wang; Qiying Yu; Yufeng Cui; Fan Zhang; Xiaosong Zhang; Xinlong Wang

要約
対照的言語画像学習(CLIP)のスケーリングは、視覚モデルおよびマルチモーダルモデルの強化に不可欠です。本稿では、現時点で最大かつ最も強力なオープンソースのCLIPモデルであるEVA-CLIP-18Bを紹介します。このモデルには180億のパラメータが含まれています。わずか60億の訓練サンプルしか見ていませんが、EVA-CLIP-18Bは27の広く認識された画像分類ベンチマークにおける平均ゼロショットトップ1精度で80.7%という優れた結果を達成し、その先駆者であるEVA-CLIP(50億パラメータ)や他のオープンソースのCLIPモデルを大幅に上回っています。特に注目すべきは、LAION-2BとCOYO-700Mから得られる20億の画像テキストペアという一定の訓練データセットを維持しながら、EVA-CLIPのモデルサイズスケーリングに伴う一貫した性能向上が観察されることです。このデータセットは公開されており、他社が使用する独自データセット(例:DFN-5B、WebLI-10B)よりもはるかに小さいです。EVA-CLIP-18Bは、EVAスタイルによる弱いから強い視覚モデルスケーリングの可能性を示しています。当該モデルの重みを公開することで、今後の視覚およびマルチモーダル基盤モデルに関する研究を促進することを目指しています。