Intégration de représentations structurées dans les modèles pré-entraînés Vision & Langage à l’aide de graphes de scènes

Les modèles vision-langage (VLM) ont démontré des performances remarquables en mode zero-shot (ZS) sur une variété de tâches. Toutefois, des travaux récents ont montré que même les meilleurs VLM peinent à capturer certains aspects de la compréhension compositionnelle des scènes, tels que les attributs des objets, les relations entre eux ou les états d’action. En revanche, l’acquisition d’étiquetages structurés, comme les graphes de scène (SG, scene graphs), capables d’améliorer ces modèles, est un processus long et coûteux, ce qui limite son utilisation à grande échelle. Nous nous posons alors la question suivante : des petits jeux de données SG peuvent-ils fournir une information suffisante pour renforcer la compréhension structurée des VLM préentraînés ? Nous montrons qu’il est effectivement possible d’améliorer les VLM en apprenant à partir de SG en intégrant des composants qui incorporent des informations structurées dans les représentations visuelles et textuelles. Du côté visuel, nous introduisons un composant spécifique, nommé « composant SG », dans le transformateur d’images, entraîné à prédire des informations de graphe de scène. Du côté textuel, nous utilisons les SG pour générer des légendes fines, mettant en évidence divers aspects compositionnels de la scène. Notre méthode améliore les performances de plusieurs VLM populaires sur plusieurs jeux de données vision-langage, tout en entraînant une dégradation modérée de leurs capacités en mode zero-shot.