Command Palette
Search for a command to run...
EVA-CLIP-18B : Échelle de CLIP à 18 milliards de paramètres
EVA-CLIP-18B : Échelle de CLIP à 18 milliards de paramètres
Quan Sun Jinsheng Wang Qiying Yu Yufeng Cui Fan Zhang Xiaosong Zhang Xinlong Wang
Résumé
L'élargissement de l'apprentissage par contraste entre langage et images (CLIP) est crucial pour renforcer les modèles visuels et multimodaux. Nous présentons EVA-CLIP-18B, le modèle CLIP open source le plus grand et le plus puissant à ce jour, doté de 18 milliards de paramètres. Avec seulement 6 milliards d'échantillons d'entraînement observés, EVA-CLIP-18B atteint une précision exceptionnelle de 80,7 % en classification zéro-shot sur une moyenne de 27 benchmarks reconnus dans le domaine de la classification d'images, surpassant largement son prédécesseur EVA-CLIP (5 milliards de paramètres) et d'autres modèles CLIP open source. De manière remarquable, nous constatons une amélioration constante des performances avec l'augmentation de la taille du modèle EVA-CLIP, malgré la maintenance d'un ensemble de données d'entraînement constant composé de 2 milliards de paires image-texte provenant de LAION-2B et COYO-700M. Ce jeu de données est librement accessible et beaucoup plus petit que les jeux de données internes (par exemple, DFN-5B, WebLI-10B) utilisés dans d'autres modèles CLIP à l'état de l'art. EVA-CLIP-18B démontre le potentiel du passage d'un modèle visuel faible à un modèle visuel fort selon la méthode EVA. En rendant nos poids de modèle publiquement disponibles, nous espérons faciliter les futures recherches sur les modèles fondamentaux visuels et multimodaux.