KontextuelleGeschichte: Konsistente visuelle Erzählung mit räumlich verarbeiteten und erzählstrukturierten Kontexten

Visuelles Erzählen beinhaltet die Generierung einer Folge kohärenter Bilder aus einem textuellen Handlungsstrang, wobei Konsistenz in den Charakteren und Szenen gewahrt wird. Bestehende autoregressive Methoden, die auf vorherigen Bild-Satz-Paaren basieren, ringen mit hohem Speicherverbrauch, langsamen Generierungsgeschwindigkeiten und begrenzter Kontextintegration. Um diese Probleme zu lösen, schlagen wir ContextualStory vor, einen neuen Rahmenwerk zur Generierung kohärenter Storyframes und zur Erweiterung von Frames für visuelles Erzählen. ContextualStory nutzt eine räumlich erweiterte zeitliche Aufmerksamkeit (Spatially-Enhanced Temporal Attention), um räumliche und zeitliche Abhängigkeiten zu erfassen und signifikante Bewegungen der Charaktere effektiv zu verarbeiten. Zudem führen wir einen Storyline-Kontextualisierer ein, um den Kontext in der Handlungsstrang-Embedding zu bereichern, sowie einen StoryFlow-Anpasser, um Szenenwechsel zwischen Frames zu messen und das Modell damit zu leiten. Ausführliche Experimente anhand der Datensätze PororoSV und FlintstonesSV zeigen, dass ContextualStory in beiden Aspekten – Storyvisualisierung und -fortsetzung – deutlich besser abschneidet als bestehende state-of-the-art-Methoden. Der Quellcode ist unter https://github.com/sixiaozheng/ContextualStory verfügbar.