HyperAIHyperAI

Command Palette

Search for a command to run...

Pré-entraînement autoregressif multimodal des grands encodeurs visuels

Résumé

Nous introduisons une nouvelle méthode d’entraînement préalable (pre-training) pour des encodeurs visuels à grande échelle. S'appuyant sur les avancées récentes dans l'entraînement autoregressif des modèles visuels, nous étendons ce cadre à un contexte multimodal, c’est-à-dire à la fois images et texte. Dans cet article, nous présentons AIMV2, une famille d’encodeurs visuels généralistes caractérisés par un processus d’entraînement préalable simple, une grande évolutivité et des performances remarquables sur une large gamme de tâches ultérieures. Cela est réalisé en associant l’encodeur visuel à un décodeur multimodal qui génère de manière autoregressive des patches d’image bruts et des jetons de texte. Nos encodeurs se distinguent non seulement dans les évaluations multimodales, mais aussi dans les benchmarks visuels tels que la localisation, l’ancrage (grounding) et la classification. Notamment, l’encodeur AIMV2-3B atteint une précision de 89,5 % sur ImageNet-1k avec un tronc gelé. En outre, AIMV2 dépasse de manière cohérente les modèles contrastifs de pointe (tels que CLIP, SigLIP) dans la compréhension multimodale des images, dans diverses configurations expérimentales.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp