il y a 2 mois

COSMOS : Autodistillation inter-modale pour le pré-entraînement en vision et langage

Sanghwan Kim; Rui Xiao; Mariana-Iuliana Georgescu; Stephan Alaniz; Zeynep Akata

Résumé

Les modèles de vision-langue (VLMs) formés avec une perte contrastive ont réalisé des avancées significatives dans diverses tâches de vision et de langage. Cependant, la nature globale de la perte contrastive fait que les VLMs se concentrent principalement sur les objets du premier plan, négligeant d'autres informations cruciales dans l'image, ce qui limite leur efficacité dans les tâches en aval. Pour relever ces défis, nous proposons COSMOS : CrOSs-MOdality Self-distillation pour le pré-entraînement de vision-langue, qui intègre une nouvelle stratégie de recadrage textuel et un module d'attention croisée dans un cadre d'apprentissage auto-supervisé. Nous créons des vues globales et locales d'images et de textes (c'est-à-dire des augmentations multi-modales), qui sont essentielles pour l'autodistillation dans les VLMs. Nous introduisons également un module d'attention croisée, permettant à COSMOS d'apprendre des représentations inter-modales complètes optimisées par une perte d'autodistillation inter-modale. COSMOS surpasse constamment les précédentes méthodes robustes sur diverses tâches en aval à zéro coup d'œil, y compris la recherche d'information, la classification et la segmentation sémantique. De plus, il dépasse les modèles basés sur CLIP formés sur des ensembles de données plus importants dans les tâches de perception visuelle et de compréhension contextuelle. Le code est disponible à l'adresse suivante : https://github.com/ExplainableML/cosmos.