HyperAIHyperAI
il y a 3 mois

Récit visuel cohérent par attention visuelle et thématique haut-bas parallèle

{Hanli Wang, Jinjing Gu}
Récit visuel cohérent par attention visuelle et thématique haut-bas parallèle
Résumé

L’art du récit visuel vise à générer automatiquement un paragraphe narratif à partir d’un album photo donné. Il soulève des défis plus importants que la description textuelle d’images individuelles, principalement en raison de la difficulté à préserver une cohérence thématique et à produire des formulations variées pour représenter le contenu riche d’un album photo. Les modèles existants basés sur l’attention, qui manquent d’informations directrices de haut niveau, entraînent souvent un écart entre la phrase générée et le thème véhiculé par les images. En outre, ces approches largement utilisées de génération de langage, qui reposent sur une recherche en largeur standard (beam search), ont tendance à produire des descriptions monotones. Dans ce travail, un cadre de récit visuel cohérent (CoVS) est conçu pour relever ces défis. Plus précisément, lors de la phase d’encodage, un encodeur de séquence d’images est mis au point pour extraire efficacement les caractéristiques visuelles de l’album photo d’entrée. Ensuite, un décodeur novateur, appelé attention parallèle haut-bas visuelle et thématique (PTDVTA), est construit à l’aide d’un réseau neuronal sensible au thème, d’un modèle d’attention haut-bas parallèle et d’un générateur de langage cohérent. Concrètement, l’attention visuelle se concentre sur les attributs et les relations entre les objets, tandis que l’attention thématique, intégrant un réseau neuronal sensible au thème, améliore la cohérence des phrases générées. Enfin, un algorithme de recherche en largeur par phrases basé sur la diversité n-gramme de Hamming est conçu pour optimiser la diversité expressive du récit généré. Pour valider le cadre CoVS proposé, des expérimentations étendues sont menées sur le jeu de données VIST, montrant que CoVS parvient à générer automatiquement des récits cohérents et variés de manière plus naturelle. De plus, CoVS obtient de meilleures performances que les méthodes de pointe sur les scores BLEU-4 et METEOR, tout en maintenant de bons scores CIDEr et ROUGH_L. Le code source de ce travail est disponible à l’adresse suivante : https://mic.tongji.edu.cn.