HyperAIHyperAI

Command Palette

Search for a command to run...

EVA-CLIP-18B: CLIPを180億パラメータに拡大

Quan Sun Jinsheng Wang Qiying Yu Yufeng Cui Fan Zhang Xiaosong Zhang Xinlong Wang

概要

対照的言語画像学習(CLIP)のスケーリングは、視覚モデルおよびマルチモーダルモデルの強化に不可欠です。本稿では、現時点で最大かつ最も強力なオープンソースのCLIPモデルであるEVA-CLIP-18Bを紹介します。このモデルには180億のパラメータが含まれています。わずか60億の訓練サンプルしか見ていませんが、EVA-CLIP-18Bは27の広く認識された画像分類ベンチマークにおける平均ゼロショットトップ1精度で80.7%という優れた結果を達成し、その先駆者であるEVA-CLIP(50億パラメータ)や他のオープンソースのCLIPモデルを大幅に上回っています。特に注目すべきは、LAION-2BとCOYO-700Mから得られる20億の画像テキストペアという一定の訓練データセットを維持しながら、EVA-CLIPのモデルサイズスケーリングに伴う一貫した性能向上が観察されることです。このデータセットは公開されており、他社が使用する独自データセット(例:DFN-5B、WebLI-10B)よりもはるかに小さいです。EVA-CLIP-18Bは、EVAスタイルによる弱いから強い視覚モデルスケーリングの可能性を示しています。当該モデルの重みを公開することで、今後の視覚およびマルチモーダル基盤モデルに関する研究を促進することを目指しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
EVA-CLIP-18B: CLIPを180億パラメータに拡大 | 記事 | HyperAI超神経