HyperAIHyperAI

Command Palette

Search for a command to run...

KontextuelleGeschichte: Konsistente visuelle Erzählung mit räumlich verarbeiteten und erzählstrukturierten Kontexten

Sixiao Zheng Yanwei Fu

Zusammenfassung

Visuelles Erzählen beinhaltet die Generierung einer Folge kohärenter Bilder aus einem textuellen Handlungsstrang, wobei Konsistenz in den Charakteren und Szenen gewahrt wird. Bestehende autoregressive Methoden, die auf vorherigen Bild-Satz-Paaren basieren, ringen mit hohem Speicherverbrauch, langsamen Generierungsgeschwindigkeiten und begrenzter Kontextintegration. Um diese Probleme zu lösen, schlagen wir ContextualStory vor, einen neuen Rahmenwerk zur Generierung kohärenter Storyframes und zur Erweiterung von Frames für visuelles Erzählen. ContextualStory nutzt eine räumlich erweiterte zeitliche Aufmerksamkeit (Spatially-Enhanced Temporal Attention), um räumliche und zeitliche Abhängigkeiten zu erfassen und signifikante Bewegungen der Charaktere effektiv zu verarbeiten. Zudem führen wir einen Storyline-Kontextualisierer ein, um den Kontext in der Handlungsstrang-Embedding zu bereichern, sowie einen StoryFlow-Anpasser, um Szenenwechsel zwischen Frames zu messen und das Modell damit zu leiten. Ausführliche Experimente anhand der Datensätze PororoSV und FlintstonesSV zeigen, dass ContextualStory in beiden Aspekten – Storyvisualisierung und -fortsetzung – deutlich besser abschneidet als bestehende state-of-the-art-Methoden. Der Quellcode ist unter https://github.com/sixiaozheng/ContextualStory verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp