Pré-entraînement autoregressif multimodal des grands encodeurs visuels

Nous introduisons une nouvelle méthode d’entraînement préalable (pre-training) pour des encodeurs visuels à grande échelle. S'appuyant sur les avancées récentes dans l'entraînement autoregressif des modèles visuels, nous étendons ce cadre à un contexte multimodal, c’est-à-dire à la fois images et texte. Dans cet article, nous présentons AIMV2, une famille d’encodeurs visuels généralistes caractérisés par un processus d’entraînement préalable simple, une grande évolutivité et des performances remarquables sur une large gamme de tâches ultérieures. Cela est réalisé en associant l’encodeur visuel à un décodeur multimodal qui génère de manière autoregressive des patches d’image bruts et des jetons de texte. Nos encodeurs se distinguent non seulement dans les évaluations multimodales, mais aussi dans les benchmarks visuels tels que la localisation, l’ancrage (grounding) et la classification. Notamment, l’encodeur AIMV2-3B atteint une précision de 89,5 % sur ImageNet-1k avec un tronc gelé. En outre, AIMV2 dépasse de manière cohérente les modèles contrastifs de pointe (tels que CLIP, SigLIP) dans la compréhension multimodale des images, dans diverses configurations expérimentales.