StoryDALL-E: Anpassung vortrainierter Text-zu-Bild-Transformer für die Fortsetzung von Geschichten

Kürzliche Fortschritte im Bereich der Text-zu-Bild-Synthese haben zu großen vortrainierten Transformer-Modellen geführt, die ausgezeichnete Fähigkeiten besitzen, Visualisierungen aus einem gegebenen Text zu generieren. Diese Modelle sind jedoch für spezialisierte Aufgaben wie die Erzählungsvizualisierung ungeeignet, bei der ein Agent eine Reihe von Bildern basierend auf einer entsprechenden Reihe von Bildunterschriften erzeugen muss, um eine Erzählung zu bilden. Darüber hinaus stellen wir fest, dass die Aufgabe der Erzählungsvizualisierung nicht in der Lage ist, sich auf unbekannte Handlungsstränge und Charaktere in neuen Erzählungen zu verallgemeinern. Deshalb schlagen wir zunächst die Aufgabe der Erzählungskontinuität vor, bei der die generierte visuelle Geschichte unter Berücksichtigung eines Quellbildes konditioniert wird, was eine bessere Verallgemeinerung auf Erzählungen mit neuen Charakteren ermöglicht. Anschließend verbessern oder 'retro-fit' wir die vortrainierten Text-zu-Bild-Synthese-Modelle mit aufgabenspezifischen Modulen für (a) sequenzielle Bildgenerierung und (b) Kopieren relevanter Elemente aus einem Anfangsbild. Dann untersuchen wir sowohl das Feinjustieren des gesamten Modells als auch das promptbasierte Feinjustieren zur parametersparenden Anpassung des vortrainierten Modells. Wir bewerten unseren Ansatz StoryDALL-E anhand zweier bestehender Datensätze, PororoSV und FlintstonesSV, und stellen einen neuen Datensatz DiDeMoSV vor, der aus einem Video-Kaptionierungsdatensatz zusammengestellt wurde. Zudem entwickeln wir ein Modell StoryGANc basierend auf Generativen Wettbewerbsnetzen (GAN) für die Erzählungskontinuität und vergleichen es mit dem Modell StoryDALL-E, um die Vorteile unseres Ansatzes zu demonstrieren. Wir zeigen, dass unser Retro-Fitting-Ansatz GAN-basierte Modelle bei der Erzählungskontinuität übertrifft und das Kopieren visueller Elemente aus dem Quellbild erleichtert, wodurch die Kontinuität in der generierten visuellen Geschichte verbessert wird. Schließlich deutet unsere Analyse darauf hin, dass vortrainierte Transformer Schwierigkeiten haben, Erzählungen mit mehreren Charakteren zu verstehen. Insgesamt zeigt unsere Arbeit, dass vortrainierte Text-zu-Bild-Synthese-Modelle für komplexe und ressourcenarme Aufgaben wie die Erzählungskontinuität angepasst werden können.