HyperAIHyperAI

Command Palette

Search for a command to run...

EVA-CLIP : Amélioration des techniques d'entraînement de CLIP à grande échelle

Quan Sun¹ Yuxin Fang¹,² Ledell Wu¹ Xinlong Wang¹ Yue Cao¹

Résumé

Le pré-entraînement contrastif de langage et d'image, abrégé en CLIP, a suscité une attention croissante en raison de son potentiel dans divers scénarios. Dans cet article, nous proposons EVA-CLIP, une série de modèles qui améliorent considérablement l'efficacité et l'efficience de l'entraînement CLIP. Notre approche intègre de nouvelles techniques pour l'apprentissage des représentations, l'optimisation et l'augmentation, permettant à EVA-CLIP d'atteindre des performances supérieures par rapport aux modèles CLIP précédents ayant le même nombre de paramètres mais avec des coûts d'entraînement nettement plus faibles. Notamment, notre modèle le plus grand, EVA-02-CLIP-E/14+ (5,0 milliards de paramètres), atteint une précision zéro-shot top-1 de 82,0 % sur ImageNet-1K val avec seulement 9 milliards d'échantillons vus. Un modèle plus petit, EVA-02-CLIP-L/14+ (430 millions de paramètres) et 6 milliards d'échantillons vus, atteint une précision zéro-shot top-1 de 80,4 % sur ImageNet-1K val. Pour faciliter un accès ouvert et une recherche ouverte, nous mettons à disposition la suite complète d'EVA-CLIP à la communauté sur https://github.com/baaivision/EVA/tree/master/EVA-CLIP.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
EVA-CLIP : Amélioration des techniques d'entraînement de CLIP à grande échelle | Articles | HyperAI