il y a 17 jours

EVA : Explorer les limites de l'apprentissage des représentations visuelles masquées à grande échelle

Yuxin Fang, Wen Wang, Binhui Xie, Quan Sun, Ledell Wu, Xinggang Wang, Tiejun Huang, Xinlong Wang, Yue Cao

Résumé

Nous lançons EVA, un modèle fondamental centré sur la vision, conçu pour explorer les limites de la représentation visuelle à grande échelle en n'utilisant que des données accessibles publiquement. EVA est un ViT (Vision Transformer) de base pré-entraîné pour reconstruire les caractéristiques visuelles alignées image-texte masquées, conditionnellement aux patches visibles de l’image. Grâce à cette tâche prétexte, nous pouvons échelonner efficacement EVA jusqu’à un milliard de paramètres, établissant de nouveaux records sur une large gamme de tâches visuelles de bout en bout, telles que la reconnaissance d’images, la reconnaissance d’actions dans les vidéos, la détection d’objets, la segmentation d’instances et la segmentation sémantique, sans nécessiter d’entraînement supervisé intensif. En outre, nous observons que l’augmentation de la taille d’EVA entraîne des changements qualitatifs significatifs dans les performances de transfert, des phénomènes qui ne sont pas observés dans d’autres modèles. Par exemple, EVA réalise une avancée remarquable sur la tâche exigeante de segmentation d’instances à vocabulaire large : notre modèle atteint presque des performances de pointe sur le jeu de données LVISv1.0, comprenant plus de mille catégories, tout en obtenant des résultats comparables sur COCO, qui ne comporte que quatre-vingts catégories. Au-delà d’un simple encodeur visuel, EVA peut également servir de pivot multimodal centré sur la vision, permettant de relier efficacement images et textes. Nous constatons qu’initialiser la tour visuelle d’un CLIP massif à partir d’EVA stabilise fortement l’entraînement et permet de surpasser de manière significative un entraînement à partir de zéro, avec bien moins d’échantillons et une consommation de calcul réduite, ouvrant ainsi une nouvelle voie pour l’échelonnement et l’accélération de l’entraînement coûteux des modèles fondamentaux multimodaux. Pour faciliter les recherches futures, nous mettons à disposition tout le code et les modèles sur https://github.com/baaivision/EVA.