HyperAIHyperAI
il y a 11 jours

Représentation et révision : Modélisation des intrigues pour la narration visuelle

Chi-Yang Hsu, Yun-Wei Chu, Ting-Hao &#39, Kenneth&#39, Huang, Lun-Wei Ku
Représentation et révision : Modélisation des intrigues pour la narration visuelle
Résumé

Rédiger une histoire cohérente et captivante n’est pas une tâche aisée. Les écrivains créatifs s’appuient sur leurs connaissances et leur vision du monde pour rassembler des éléments disparates en une trame narrative fluide, en travaillant et en retravaillant de manière itérative jusqu’à l’aboutissement d’une version optimale. Les modèles automatisés de narration visuelle (VIST), en revanche, exploitent mal les connaissances externes et le processus itératif lorsqu’ils tentent de générer des récits. Ce papier présente PR-VIST, un cadre qui représente une séquence d’images d’entrée sous forme de graphe narratif, dans lequel il identifie le meilleur chemin menant à la construction d’une histoire. PR-VIST exploite ensuite ce chemin pour apprendre à générer le récit final via un processus d’entraînement itératif. Ce cadre produit des récits supérieurs en termes de diversité, de cohérence et de naturel, selon à la fois des évaluations automatiques et humaines. Une étude d’ablation démontre que tant la structuration de l’intrigue que le retraitement itératif contribuent significativement à la supériorité du modèle.

Représentation et révision : Modélisation des intrigues pour la narration visuelle | Articles de recherche récents | HyperAI