HyperAIHyperAI

Command Palette

Search for a command to run...

COSMOS : Autodistillation inter-modale pour le pré-entraînement en vision et langage

Sanghwan Kim Rui Xiao Mariana-Iuliana Georgescu Stephan Alaniz Zeynep Akata

Résumé

Les modèles de vision-langue (VLMs) formés avec une perte contrastive ont réalisé des avancées significatives dans diverses tâches de vision et de langage. Cependant, la nature globale de la perte contrastive fait que les VLMs se concentrent principalement sur les objets du premier plan, négligeant d'autres informations cruciales dans l'image, ce qui limite leur efficacité dans les tâches en aval. Pour relever ces défis, nous proposons COSMOS : CrOSs-MOdality Self-distillation pour le pré-entraînement de vision-langue, qui intègre une nouvelle stratégie de recadrage textuel et un module d'attention croisée dans un cadre d'apprentissage auto-supervisé. Nous créons des vues globales et locales d'images et de textes (c'est-à-dire des augmentations multi-modales), qui sont essentielles pour l'autodistillation dans les VLMs. Nous introduisons également un module d'attention croisée, permettant à COSMOS d'apprendre des représentations inter-modales complètes optimisées par une perte d'autodistillation inter-modale. COSMOS surpasse constamment les précédentes méthodes robustes sur diverses tâches en aval à zéro coup d'œil, y compris la recherche d'information, la classification et la segmentation sémantique. De plus, il dépasse les modèles basés sur CLIP formés sur des ensembles de données plus importants dans les tâches de perception visuelle et de compréhension contextuelle. Le code est disponible à l'adresse suivante : https://github.com/ExplainableML/cosmos.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
COSMOS : Autodistillation inter-modale pour le pré-entraînement en vision et langage | Articles | HyperAI