HyperAIHyperAI
il y a 18 jours

MemCap : Mémorisation des connaissances stylistiques pour la génération de légendes d'images

{Xiaoxun Zhang, Xinxiao wu, Wentian Zhao}
Résumé

La génération de légendes stylisées pour des images constitue une tâche difficile, car elle exige non seulement une description précise du contenu visuel, mais aussi une expression appropriée du style linguistique souhaité. Dans cet article, nous proposons MemCap, une nouvelle méthode de génération de légendes d’images stylisées qui encode explicitement les connaissances relatives aux styles linguistiques grâce à un mécanisme de mémoire. Contrairement aux approches existantes qui reposent fortement sur un modèle linguistique pour capturer les facteurs de style, notre méthode se base sur la mémoire d’éléments stylisés appris à partir d’un corpus d’entraînement. Plus précisément, nous avons conçu un module de mémoire composé d’un ensemble de vecteurs d’encodage destinés à représenter des phrases liées au style présentes dans le corpus d’entraînement. Pour extraire ces phrases liées au style, nous avons développé un algorithme de décomposition de phrases qui divise une phrase stylisée en deux parties : une partie liée au style, reflétant le registre linguistique, et une partie liée au contenu, contenant les éléments visuels. Lors de la génération des légendes, MemCap extrait d’abord, via un mécanisme d’attention, les connaissances sur le style pertinentes au contenu à partir du module de mémoire, puis intègre ces connaissances dans un modèle linguistique. Des expériences étendues menées sur deux jeux de données de génération de légendes d’images stylisées (SentiCap et FlickrStyle10K) démontrent l’efficacité de notre approche.