Récit Contextuel : Récit Visuel Cohérent avec un Contexte Spatialement Amélioré et une Ligne Narrative

Le récit visuel implique la génération d'une séquence de cadres cohérents à partir d'un scénario textuel tout en maintenant la cohérence des personnages et des scènes. Les méthodes autorégressives existantes, qui s'appuient sur des paires cadre-sentence précédentes, peinent à gérer une utilisation importante de la mémoire, des vitesses de génération lentes et une intégration limitée du contexte. Pour remédier à ces problèmes, nous proposons ContextualStory, un nouveau cadre conçu pour générer des cadres cohérents de récit et étendre les cadres pour le récit visuel. ContextualStory utilise l'Attention Temporelle Améliorée Spatialement pour capturer les dépendances spatiales et temporelles, traitant efficacement les mouvements importants des personnages. De plus, nous introduisons un Contextualiseur de Scénario pour enrichir le contexte dans l'embedding du scénario, ainsi qu'un Adaptateur de StoryFlow pour mesurer les changements de scène entre les cadres afin de guider le modèle. Des expériences approfondies sur les jeux de données PororoSV et FlintstonesSV montrent que ContextualStory surpasse considérablement les méthodes SOTA (State-of-the-Art) existantes tant en visualisation de récit qu'en prolongation. Le code est disponible à l'adresse suivante : https://github.com/sixiaozheng/ContextualStory.