HyperAIHyperAI
il y a 11 jours

MMRL : Apprentissage de représentation multi-modale pour les modèles vision-langage

Yuncheng Guo, Xiaodong Gu
MMRL : Apprentissage de représentation multi-modale pour les modèles vision-langage
Résumé

Les modèles vision-langage pré-entraînés à grande échelle (VLM) sont devenus essentiels pour le transfert d'apprentissage across diverses tâches. Toutefois, l'adaptation de ces modèles à l'aide de données limitées en peu d'exemples (few-shot) entraîne souvent un surajustement, ce qui réduit leur performance sur de nouvelles tâches. Pour remédier à ce problème, nous proposons un cadre novateur d'apprentissage de représentations multimodales (MMRL) qui introduit un espace de représentation partagé, apprenable et indépendant du mode (modality-agnostic). Le cadre MMRL projette les tokens d'espace vers des tokens de représentation textuelle et visuelle, favorisant des interactions multimodales plus efficaces. Contrairement aux approches antérieures qui optimisent uniquement les caractéristiques du token de classe, MMRL intègre des tokens de représentation aux couches supérieures des encodeurs — où les caractéristiques propres au jeu de données sont plus marquées — tout en préservant les connaissances généralisées dans les couches inférieures. Pendant l'entraînement, les caractéristiques de représentation et celles de la classe sont optimisées conjointement, avec une couche de projection entraînable appliquée aux tokens de représentation, tandis que la couche de projection du token de classe reste gelée afin de préserver les connaissances pré-entraînées. En outre, un terme de régularisation est introduit pour aligner les caractéristiques de classe et celles du texte avec les caractéristiques zéro-shot issues du VLM gelé, protégeant ainsi la capacité de généralisation du modèle. Lors de l'inférence, une stratégie de découplage est adoptée : les caractéristiques de représentation et de classe sont utilisées conjointement pour les classes de base, tandis que seules les caractéristiques de classe — conservant davantage de connaissances généralisées — sont utilisées pour les nouvelles tâches. Des expériences étendues sur 15 jeux de données montrent que MMRL surpasser les méthodes de pointe, atteignant un équilibre optimal entre adaptation spécifique à la tâche et généralisation. Le code est disponible à l'adresse suivante : https://github.com/yunncheng/MMRL.