Au-delà d’un détecteur d’objets pré-entraîné : contexte textuel et visuel multimodal pour la génération de légendes d’images

Des progrès significatifs ont été réalisés dans le domaine de la génération de légendes visuelles, principalement en s'appuyant sur des caractéristiques pré-entraînées et des détecteurs d'objets fixes, qui servent de données d'entrée riches pour des modèles auto-régressifs. Toutefois, une limitation majeure de ces approches réside dans le fait que la sortie du modèle dépend uniquement des sorties du détecteur d'objets. L'hypothèse selon laquelle ces sorties peuvent représenter toute l'information nécessaire est irréaliste, en particulier lorsque le détecteur est transféré entre différents jeux de données. Dans ce travail, nous analysons le modèle graphique induit par cette hypothèse, et proposons d'ajouter une entrée auxiliaire afin de représenter les informations manquantes, telles que les relations entre objets. Plus précisément, nous suggérons d'extraire des attributs et des relations à partir du jeu de données Visual Genome, et de conditionner le modèle de génération de légendes sur ces éléments. De manière cruciale, nous proposons (et démontrons son importance) l'utilisation d'un modèle pré-entraîné multimodal (CLIP) pour récupérer ces descriptions contextuelles. En outre, les modèles de détecteurs d'objets sont gelés et ne possèdent pas une richesse suffisante pour permettre au modèle de génération de légendes de les ancrer correctement. Par conséquent, nous proposons de conditionner à la fois les sorties du détecteur et celles des descriptions sur l'image elle-même, et montrons qualitativement et quantitativement que cela améliore significativement l'ancrage. Nous validons notre méthode sur la tâche de génération de légendes d'images, menons une analyse approfondie de chaque composant ainsi que de l'importance du modèle pré-entraîné multimodal, et démontrons des améliorations marquées par rapport à l'état de l'art actuel, notamment une augmentation de +7,5 % sur le score CIDEr et de +1,3 % sur le score BLEU-4.