EVA-CLIP-18B : Échelle de CLIP à 18 milliards de paramètres

L'élargissement de l'apprentissage par contraste entre langage et images (CLIP) est crucial pour renforcer les modèles visuels et multimodaux. Nous présentons EVA-CLIP-18B, le modèle CLIP open source le plus grand et le plus puissant à ce jour, doté de 18 milliards de paramètres. Avec seulement 6 milliards d'échantillons d'entraînement observés, EVA-CLIP-18B atteint une précision exceptionnelle de 80,7 % en classification zéro-shot sur une moyenne de 27 benchmarks reconnus dans le domaine de la classification d'images, surpassant largement son prédécesseur EVA-CLIP (5 milliards de paramètres) et d'autres modèles CLIP open source. De manière remarquable, nous constatons une amélioration constante des performances avec l'augmentation de la taille du modèle EVA-CLIP, malgré la maintenance d'un ensemble de données d'entraînement constant composé de 2 milliards de paires image-texte provenant de LAION-2B et COYO-700M. Ce jeu de données est librement accessible et beaucoup plus petit que les jeux de données internes (par exemple, DFN-5B, WebLI-10B) utilisés dans d'autres modèles CLIP à l'état de l'art. EVA-CLIP-18B démontre le potentiel du passage d'un modèle visuel faible à un modèle visuel fort selon la méthode EVA. En rendant nos poids de modèle publiquement disponibles, nous espérons faciliter les futures recherches sur les modèles fondamentaux visuels et multimodaux.