HyperAIHyperAI
il y a 16 jours

Récit expert : un modèle génératif piloté par le bon sens pour la narration visuelle

{Xu sun, Zhiyi Yin, Lei LI, Xiaodong He, Pengcheng Yang, Fuli Luo, Peng Chen}
Récit expert : un modèle génératif piloté par le bon sens pour la narration visuelle
Résumé

La tâche de narration visuelle (VST) vise à générer un récit cohérent et raisonnable au niveau du paragraphe à partir d’un flux d’images en entrée. Contrairement à une légende (caption), qui constitue une description directe et littérale du contenu visuel, le récit dans le cadre de la VST tend à intégrer de nombreux concepts imaginaires qui ne sont pas présents dans les images elles-mêmes. Cela impose à l’agent IA de raisonner et d’établir des liens avec ces concepts imaginaires en s’appuyant sur des connaissances courantes implicites afin de produire un récit pertinent décrivant le flux d’images. Dans ce travail, nous proposons donc un modèle génératif piloté par des connaissances courantes, dont l’objectif est d’introduire des éléments essentiels de connaissance commune provenant d’une base de connaissances externe. Notre approche extrait tout d’abord un ensemble de graphes de connaissances candidats à partir de cette base. Ensuite, un schéma d’encodage directionnel soigneusement conçu, sensible à la vision, est adopté pour intégrer efficacement les connaissances communes les plus pertinentes. Par ailleurs, nous cherchons à maximiser la similarité sémantique au sein de la sortie durant le processus de décodage, afin d’améliorer la cohérence du texte généré. Les résultats montrent que notre méthode dépasse largement les systèmes de pointe, obtenant une amélioration relative de 29 % sur le score CIDEr. Grâce à l’intégration supplémentaire de connaissances communes et à une fonction objectif fondée sur la pertinence sémantique, les récits générés sont davantage diversifiés et cohérents.