HyperAIHyperAI

Command Palette

Search for a command to run...

EVA : Explorer les limites de l'apprentissage des représentations visuelles masquées à grande échelle

Yuxin Fang Wen Wang Binhui Xie Quan Sun Ledell Wu Xinggang Wang Tiejun Huang Xinlong Wang Yue Cao

Résumé

Nous lançons EVA, un modèle fondamental centré sur la vision, conçu pour explorer les limites de la représentation visuelle à grande échelle en n'utilisant que des données accessibles publiquement. EVA est un ViT (Vision Transformer) de base pré-entraîné pour reconstruire les caractéristiques visuelles alignées image-texte masquées, conditionnellement aux patches visibles de l’image. Grâce à cette tâche prétexte, nous pouvons échelonner efficacement EVA jusqu’à un milliard de paramètres, établissant de nouveaux records sur une large gamme de tâches visuelles de bout en bout, telles que la reconnaissance d’images, la reconnaissance d’actions dans les vidéos, la détection d’objets, la segmentation d’instances et la segmentation sémantique, sans nécessiter d’entraînement supervisé intensif. En outre, nous observons que l’augmentation de la taille d’EVA entraîne des changements qualitatifs significatifs dans les performances de transfert, des phénomènes qui ne sont pas observés dans d’autres modèles. Par exemple, EVA réalise une avancée remarquable sur la tâche exigeante de segmentation d’instances à vocabulaire large : notre modèle atteint presque des performances de pointe sur le jeu de données LVISv1.0, comprenant plus de mille catégories, tout en obtenant des résultats comparables sur COCO, qui ne comporte que quatre-vingts catégories. Au-delà d’un simple encodeur visuel, EVA peut également servir de pivot multimodal centré sur la vision, permettant de relier efficacement images et textes. Nous constatons qu’initialiser la tour visuelle d’un CLIP massif à partir d’EVA stabilise fortement l’entraînement et permet de surpasser de manière significative un entraînement à partir de zéro, avec bien moins d’échantillons et une consommation de calcul réduite, ouvrant ainsi une nouvelle voie pour l’échelonnement et l’accélération de l’entraînement coûteux des modèles fondamentaux multimodaux. Pour faciliter les recherches futures, nous mettons à disposition tout le code et les modèles sur https://github.com/baaivision/EVA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
EVA : Explorer les limites de l'apprentissage des représentations visuelles masquées à grande échelle | Articles | HyperAI