Command Palette
Search for a command to run...
Storyvisualisierung durch Online-Textaugmentierung mit Kontextgedächtnis
Storyvisualisierung durch Online-Textaugmentierung mit Kontextgedächtnis
Daechul Ahn¹,§ Daneul Kim² Gwangmo Song³ Seung Hwan Kim³ Honglak Lee³,⁴ Dongyeop Kang⁵ Jonghyun Choi¹,†
Zusammenfassung
Story Visualization (SV) ist eine anspruchsvolle Aufgabe der Text-zu-Bild-Generierung, da sie nicht nur die visuellen Details aus den Textbeschreibungen zu rendern, sondern auch einen langfristigen Kontext über mehrere Sätze hinweg zu kodieren hat. Während frühere Ansätze sich hauptsächlich auf die Erzeugung semantisch relevanter Bilder für jeden Satz konzentrierten, bleibt die Kodierung eines Kontexts, der sich über das gegebene Paragraphen erstreckt, um kontextuell überzeugende Bilder (z.B. mit der richtigen Figur oder dem angemessenen Hintergrund der Szene) zu generieren, eine Herausforderung. Zu diesem Zweck schlagen wir eine neuartige Speicherarchitektur für das bidirektionale Transformer-Framework vor, die während des Trainings durch Online-Textaugmentierung mehrere Pseudo-Beschreibungen als zusätzliche Überwachung erzeugt, um die Generalisierung auf sprachliche Variationen bei der Inferenz zu verbessern. In umfangreichen Experimenten auf den beiden gängigen SV-Benchmarks, nämlich Pororo-SV und Flintstones-SV, übertreffen die vorgeschlagene Methode den Stand der Technik in verschiedenen Metriken wie FID, Charakter-F1, Bildgenauigkeit, BLEU-2/3 und R-Precision bei vergleichbarer oder geringerer Rechenaufwand.