Command Palette
Search for a command to run...
Fartash Faghri Pavan Kumar Anasosalu Vasu Cem Koc Vaishaal Shankar Alexander Toshev Oncel Tuzel Hadi Pouransari

要約
CLIPなどのゼロショット機能を備えた基礎画像・テキストモデルは、広範な応用を可能にしている。MobileCLIPは、3〜15msの低遅延、50〜150Mパラメータ規模で、最先端のゼロショット精度を達成する最近の画像・テキストモデル群である。MobileCLIPの主な特徴は、低遅延かつ軽量なアーキテクチャと、複数のキャプション生成モデルおよびCLIP教師モデルからの知識蒸留を効率的かつスケーラブル、再現可能に実現する新しいマルチモーダル強化学習(multi-modal reinforced training)である。本論文では、MobileCLIPのマルチモーダル強化学習を以下のように改善した:1)DFNデータセットで訓練されたより優れたCLIP教師アンサンブル、2)DFNデータセットで訓練し、多様な高品質な画像-キャプションデータセットでファインチューニングされた改善されたキャプション生成モデル教師。アブレーションを通じて、対照的知識蒸留における温度調整の重要性、キャプション生成モデルのファインチューニングによるキャプション多様性の向上効果、および複数モデルによる合成キャプションを組み合わせた際の累積的な性能向上といった新たな知見を得た。本研究では、新たなモデル群「MobileCLIP2」を訓練し、低遅延条件下でImageNet-1kにおけるゼロショット精度で最先端の性能を達成した。特に、MobileCLIP2-BはMobileCLIP-Bアーキテクチャと比較してImageNet-1k精度で2.2%の向上を達成した。注目すべきは、MobileCLIP2-S4がImageNet-1kにおいてSigLIP-SO400M/14と同等のゼロショット精度を達成しつつ、サイズは2倍小さく、DFN ViT-L/14と比較して2.5倍低い遅延で性能を上回っている点である。本研究では、事前学習済みモデル(このhttps URL)およびデータ生成コード(このhttps URL)を公開する。このデータ生成コードにより、分散スケーラブル処理を用いて任意の教師モデルを用いた新たな強化データセットの作成が容易になる。