2ヶ月前

EVA-CLIP: 大規模なCLIPの訓練技術の改善

Quan Sun; Yuxin Fang; Ledell Wu; Xinlong Wang; Yue Cao
EVA-CLIP: 大規模なCLIPの訓練技術の改善
要約

対照的言語-画像事前学習(Contrastive Language-Image Pre-training, CLIP)は、そのさまざまなシナリオでの潜在能力により、ますます注目を集めています。本論文では、EVA-CLIPと呼ばれる一連のモデルを提案します。これらのモデルは、CLIPの訓練効率と効果性を大幅に向上させます。当方針では、表現学習、最適化、データ拡張の新しい手法を取り入れており、これによりEVA-CLIPは同じパラメータ数を持つ従来のCLIPモデルよりも優れた性能を達成し、かつ訓練コストが大幅に削減されています。特に、最大50億パラメータのEVA-02-CLIP-E/14+は90億サンプルしか見ていませんが、ImageNet-1K valで82.0%のゼロショットトップ1精度を達成しました。また、430百万パラメータと60億サンプルのみを使用する较小なEVA-02-CLIP-L/14+でも、ImageNet-1K valで80.4%のゼロショットトップ1精度を達成しています。オープンアクセスとオープンリサーチを促進するために、我々はコミュニティに対してEVA-CLIPの全シリーズをhttps://github.com/baaivision/EVA/tree/master/EVA-CLIPにて公開します。修正后的版本:対照的言語‐画像事前学習(Contrastive Language‐Image Pre‐training, CLIP)は、その多様なシナリオにおける潜在的な能力により、近年ますます注目を集めています。本論文では、EVA‐CLIPと呼ばれる一連のモデルを提案します。これらのモデルは、表現学習や最適化手法およびデータ拡張技術に新たなアプローチを取り入れることで、既存のCLIPモデルと同じパラメータ数でありながらも著しく低い訓練コストで優れた性能を実現します。特に最大50億パラメータを持つEVA‐02‐CLIP‐E/14+は90億サンプルを見ただけでImageNet‐1K valにおいて82.0%のゼロショットトップ1精度を達成しました。また430百万パラメータと60億サンプルのみを使用する小型版であるEVA‐02‐CLIP‐L/14+でも同評価セット上で80.4%のゼロショットトップ1精度を記録しています。オープンアクセスとオープンリサーチの促進を目指して私たちはこの全シリーズのEVA‐CLIPをhttps://github.com/baaivision/EVA/tree/master/EVA-CLIP にてコミュニティに提供いたします。

EVA-CLIP: 大規模なCLIPの訓練技術の改善 | 最新論文 | HyperAI超神経