il y a 2 mois

EVA-CLIP : Amélioration des techniques d'entraînement de CLIP à grande échelle

Quan Sun; Yuxin Fang; Ledell Wu; Xinlong Wang; Yue Cao

Résumé

Le pré-entraînement contrastif de langage et d'image, abrégé en CLIP, a suscité une attention croissante en raison de son potentiel dans divers scénarios. Dans cet article, nous proposons EVA-CLIP, une série de modèles qui améliorent considérablement l'efficacité et l'efficience de l'entraînement CLIP. Notre approche intègre de nouvelles techniques pour l'apprentissage des représentations, l'optimisation et l'augmentation, permettant à EVA-CLIP d'atteindre des performances supérieures par rapport aux modèles CLIP précédents ayant le même nombre de paramètres mais avec des coûts d'entraînement nettement plus faibles. Notamment, notre modèle le plus grand, EVA-02-CLIP-E/14+ (5,0 milliards de paramètres), atteint une précision zéro-shot top-1 de 82,0 % sur ImageNet-1K val avec seulement 9 milliards d'échantillons vus. Un modèle plus petit, EVA-02-CLIP-L/14+ (430 millions de paramètres) et 6 milliards d'échantillons vus, atteint une précision zéro-shot top-1 de 80,4 % sur ImageNet-1K val. Pour faciliter un accès ouvert et une recherche ouverte, nous mettons à disposition la suite complète d'EVA-CLIP à la communauté sur https://github.com/baaivision/EVA/tree/master/EVA-CLIP.