Story2Board: Ein trainingsfreier Ansatz zur expressiven Erstellung von Storyboards

Wir stellen Story2Board vor, einen trainingsfreien Ansatz zur generativen Erstellung ausdrucksstarker Storyboards aus natürlicher Sprache. Bestehende Methoden konzentrieren sich eng auf die Erkennbarkeit der Protagonisten, wobei wesentliche Aspekte visueller Erzählung wie räumliche Komposition, Entwicklung des Hintergrunds und narrative Pacing vernachlässigt werden. Um dies zu beheben, führen wir einen leichtgewichtigen Konsistenzrahmen ein, der aus zwei Komponenten besteht: Latent Panel Anchoring, welches eine gemeinsame Charakterreferenz über alle Panels hinweg bewahrt, und Reciprocal Attention Value Mixing, das visuelle Merkmale zwischen Token-Paaren mit starker gegenseitiger Aufmerksamkeit sanft mischt. Zusammen ermöglichen diese Mechanismen eine verbesserte Kohärenz ohne Änderungen an der Architektur oder Nachtrainierung und erlauben es state-of-the-art Diffusionsmodellen, visuell vielfältige, dennoch konsistente Storyboards zu generieren. Zur Strukturierung der Generierung nutzen wir ein kommerziell verfügbares Sprachmodell, um freiformulierte Geschichten in fundierte, panelbasierte Prompt-Texte umzuwandeln. Zur Bewertung schlagen wir den Rich Storyboard Benchmark vor, eine Sammlung offener Domänen-Geschichten, die zur Beurteilung der Layout-Vielfalt, der auf dem Hintergrund basierenden Erzählung sowie der Konsistenz dienen. Außerdem führen wir eine neue Metrik namens Scene Diversity ein, die die räumliche und Pose-Variation innerhalb von Storyboards quantifiziert. Unsere qualitativen und quantitativen Ergebnisse sowie eine Benutzerstudie zeigen, dass Story2Board dynamischere, kohärentere und narrativ ansprechendere Storyboards erzeugt als bestehende Baselines.