CoCa : Les modèles de légendage contrastif sont des modèles fondamentaux d'image-texte.

L'exploration des grands modèles préentraînés de base est d'un intérêt considérable en vision par ordinateur car ces modèles peuvent être rapidement transférés à de nombreuses tâches en aval. Cet article présente Contrastive Captioner (CoCa), une conception minimaliste pour préentraîner conjointement un modèle encodeur-décodeur image-texte avec une perte contrastive et une perte de légendage, intégrant ainsi les capacités des approches contrastives comme CLIP et des méthodes génératives comme SimVLM. Contrairement aux transformateurs encodeur-décodeur standards où toutes les couches du décodeur s'orientent vers les sorties de l'encodeur, CoCa omet la cross-attention dans la première moitié des couches du décodeur pour coder des représentations textuelles unimodales, puis cascade les couches restantes du décodeur qui s'orientent vers l'encodeur d'image pour des représentations multimodales image-texte. Nous appliquons une perte contrastive entre les plongements unimodaux d'image et de texte, en plus d'une perte de légendage sur les sorties multimodales du décodeur qui prédit les jetons textuels de manière autoregressive. En partageant le même graphe computationnel, les deux objectifs d'entraînement sont calculés efficacement avec un surcoût minimal. CoCa est préentraîné de bout en bout et à partir de zéro sur des données d'alt-texte à l'échelle du web et des images annotées, en traitant toutes les étiquettes simplement comme du texte, unifiant ainsi la supervision linguistique naturelle pour l'apprentissage de représentations. Expérimentalement, CoCa atteint des performances de pointe avec un transfert zéro-shot ou une adaptation minimale spécifique à la tâche sur une large gamme de tâches en aval, couvrant la reconnaissance visuelle (ImageNet, Kinetics-400/600/700, Moments-in-Time), la recherche croisée (MSCOCO, Flickr30K, MSR-VTT), la compréhension multimodale (VQA, SNLI-VE, NLVR2) et le légendage d'image (MSCOCO, NoCaps). Notamment en classification ImageNet, CoCa obtient une précision zéro-shot top-1 de 86,3 %, 90,6 % avec un encodeur gelé et une tête de classification apprise, et établit un nouveau record d'état de l'art avec 91,0 % de précision top-1 sur ImageNet avec un encodeur affiné.