HyperAIHyperAI
il y a 18 jours

Apprentissage contrastif de grossier à fin dans l’espace image-texte-graphe pour une compositionnalité vision-langage améliorée

Harman Singh, Pengchuan Zhang, Qifan Wang, Mengjiao Wang, Wenhan Xiong, Jingfei Du, Yu Chen
Apprentissage contrastif de grossier à fin dans l’espace image-texte-graphe pour une compositionnalité vision-langage améliorée
Résumé

Les modèles vision-langage entraînés par contraste ont accompli des progrès remarquables dans l'apprentissage de représentations visuelles et linguistiques, conduisant à des modèles de pointe pour diverses tâches multimodales en aval. Toutefois, des recherches récentes ont mis en évidence des limites sévères de ces modèles en ce qui concerne leur capacité à effectuer un raisonnement compositional sur les objets, leurs attributs et leurs relations. Les graphes de scènes sont apparus comme une méthode efficace pour comprendre les images de manière compositionnelle. Il s'agit de représentations sémantiques structurées sous forme de graphes, qui capturent les objets présents dans une scène, leurs attributs ainsi que leurs relations mutuelles. Dans ce travail, nous considérons le graphe de scène extrait à partir du texte comme un substitut du graphe de scène image, et proposons un cadre de décomposition et d'augmentation de graphe, accompagné d'un objectif d'apprentissage par contraste de type grossier-vers-fin entre images et textes, permettant d'aligner des phrases de complexité variée sur la même image. Par ailleurs, nous introduisons de nouvelles techniques d'extraction de négatifs dans l'espace des graphes de scène afin d'améliorer le lien attribut-objet et la compréhension des relations. À travers des expérimentations étendues, nous démontrons l'efficacité de notre approche, qui améliore significativement le lien attribut-objet, la compréhension des relations, la généralisation systématique et la productivité sur plusieurs benchmarks récents (par exemple, des gains allant jusqu'à 18 % pour la généralisation systématique, et 16,5 % pour la compréhension des relations par rapport à une base solide), tout en atteignant des performances similaires ou supérieures à celles de CLIP sur diverses tâches multimodales générales.