HyperAIHyperAI
il y a 17 jours

Contrôle de la génération de légendes d’images de manière spatiale et temporelle

{Shuai Ma, Nan Duan, Ming Zhou, Huaishao Luo, Lei Ji, Kun Yan}
Contrôle de la génération de légendes d’images de manière spatiale et temporelle
Résumé

La génération de légendes d’images en tenant compte de l’intention de l’utilisateur est une nécessité émergente. Le jeu de données Localized Narratives, récemment publié, introduit les trajectoires de souris comme entrée supplémentaire dans la tâche de génération de légendes d’images, offrant ainsi une méthode intuitive et efficace pour contrôler les éléments à décrire dans l’image. Toutefois, la manière dont ces trajectoires peuvent être exploitées de manière efficace afin d’améliorer à la fois la qualité de génération et la contrôlabilité reste un domaine en pleine exploration. Ce papier vise à résoudre ce problème en proposant un nouveau modèle appelé LoopCAG, qui relie de manière cyclique les contraintes contrastives et la guidance par attention, en intégrant explicitement des contraintes spatiales et temporelles au processus de génération. Plus précisément, chaque phrase générée est alignée temporellement à la séquence de trajectoire correspondante grâce à une stratégie d’apprentissage contrastif. En outre, chaque mot généré est supervisé pour s’attarder sur les objets visuels corrects sous une guidance spatiale heuristique. Les résultats expérimentaux complets démontrent que notre modèle LoopCAG apprend une correspondance améliorée entre les trois modalités (vision, langage, trajectoires) et atteint des performances SOTA sur la tâche de génération de légendes contrôlées par trajectoires. En outre, la contrôlabilité et l’explicabilité de LoopCAG sont validées par une analyse de la sensibilité spatiale et temporelle au cours du processus de génération.