Visualisation cohérente d’histoire préservant les caractères

La visualisation d’histoire vise à générer une séquence d’images afin de raconter chaque phrase d’un récit composé de plusieurs phrases. Contrairement à la génération vidéo, qui se concentre sur la préservation de la continuité entre les images (cadres) générés, la visualisation d’histoire met l’accent sur la conservation de la cohérence globale des personnages et des scènes à travers les différentes images du récit, ce qui s’avère particulièrement difficile car les phrases du récit ne fournissent que des signaux épars pour la génération d’images. Ainsi, nous proposons un nouveau cadre, nommé Visualisation Cohérente Préserver les Personnages (CP-CSV), pour relever ces défis. CP-CSV apprend efficacement à visualiser le récit grâce à trois modules clés : un encodeur de récit et de contexte (apprentissage des représentations du récit et des phrases), une segmentation figure-fond (tâche auxiliaire visant à fournir des informations pour préserver la cohérence des personnages et du récit), et une génération consciente de la figure-fond (génération de séquences d’images en intégrant les informations figure-fond). En outre, nous introduisons une métrique nommée Distance de Fr'{e}chet pour les Histoires (FSD) afin d’évaluer les performances de la visualisation d’histoire. Des expériences étendues démontrent que CP-CSV préserve avec précision les détails des personnages et atteint une forte cohérence entre les différents cadres, tandis que la FSD permet une évaluation plus pertinente des performances de la visualisation d’histoire.