HyperAIHyperAI
il y a 4 mois

Narration Visuelle Informative avec Règles Multimodales

Jiacheng Li; Haizhou Shi; Siliang Tang; Fei Wu; Yueting Zhuang
Narration Visuelle Informative avec Règles Multimodales
Résumé

Les méthodes existantes dans le domaine du récit visuel souffrent souvent du problème de la génération de descriptions générales, tandis que l'image contient de nombreux contenus significatifs qui restent inaperçus. L'échec de la génération d'histoires informatives peut être attribué à l'incapacité du modèle à capturer suffisamment de concepts pertinents. Ces catégories de concepts incluent les entités, les attributs, les actions et les événements, qui sont parfois cruciaux pour le récit ancré dans l'image. Pour résoudre ce problème, nous proposons une méthode consistant à extraire des règles intermodales afin d'aider le modèle à inférer ces concepts informatiques à partir d'une entrée visuelle donnée. Nous construisons tout d'abord des transactions multimodales en concaténant les activations du CNN (Convolutional Neural Network) et les indices des mots. Ensuite, nous utilisons un algorithme d'extraction de règles d'association pour miner ces règles intermodales, qui seront utilisées pour l'inférence des concepts. Grâce aux règles intermodales, les histoires générées sont plus ancrées et informatives. De plus, notre méthode proposée présente des avantages en termes d'interprétabilité, d'extensibilité et de transférabilité, suggérant un potentiel pour une application plus large. Enfin, nous intégrons ces concepts dans notre cadre encodeur-décodeur avec un mécanisme d'attention. Nous menons plusieurs expériences sur le jeu de données VIsual StoryTelling (VIST), dont les résultats démontrent l'efficacité de notre approche tant en termes de métriques automatiques qu'évaluation humaine. Des expériences supplémentaires montrent également que nos règles intermodales extraites comme connaissances supplémentaires aident le modèle à obtenir de meilleures performances lorsqu'il est formé sur un petit ensemble de données.