Command Palette
Search for a command to run...
EVA-CLIP : Amélioration des techniques d'entraînement de CLIP à grande échelle
EVA-CLIP : Amélioration des techniques d'entraînement de CLIP à grande échelle
Quan Sun¹ Yuxin Fang¹,² Ledell Wu¹ Xinlong Wang¹ Yue Cao¹
Résumé
Le pré-entraînement contrastif de langage et d'image, abrégé en CLIP, a suscité une attention croissante en raison de son potentiel dans divers scénarios. Dans cet article, nous proposons EVA-CLIP, une série de modèles qui améliorent considérablement l'efficacité et l'efficience de l'entraînement CLIP. Notre approche intègre de nouvelles techniques pour l'apprentissage des représentations, l'optimisation et l'augmentation, permettant à EVA-CLIP d'atteindre des performances supérieures par rapport aux modèles CLIP précédents ayant le même nombre de paramètres mais avec des coûts d'entraînement nettement plus faibles. Notamment, notre modèle le plus grand, EVA-02-CLIP-E/14+ (5,0 milliards de paramètres), atteint une précision zéro-shot top-1 de 82,0 % sur ImageNet-1K val avec seulement 9 milliards d'échantillons vus. Un modèle plus petit, EVA-02-CLIP-L/14+ (430 millions de paramètres) et 6 milliards d'échantillons vus, atteint une précision zéro-shot top-1 de 80,4 % sur ImageNet-1K val. Pour faciliter un accès ouvert et une recherche ouverte, nous mettons à disposition la suite complète d'EVA-CLIP à la communauté sur https://github.com/baaivision/EVA/tree/master/EVA-CLIP.