HyperAIHyperAI
vor 2 Monaten

Storyvisualisierung durch Online-Textaugmentierung mit Kontextgedächtnis

Daechul Ahn; Daneul Kim; Gwangmo Song; Seung Hwan Kim; Honglak Lee; Dongyeop Kang; Jonghyun Choi
Storyvisualisierung durch Online-Textaugmentierung mit Kontextgedächtnis
Abstract

Story Visualization (SV) ist eine anspruchsvolle Aufgabe der Text-zu-Bild-Generierung, da sie nicht nur die visuellen Details aus den Textbeschreibungen zu rendern, sondern auch einen langfristigen Kontext über mehrere Sätze hinweg zu kodieren hat. Während frühere Ansätze sich hauptsächlich auf die Erzeugung semantisch relevanter Bilder für jeden Satz konzentrierten, bleibt die Kodierung eines Kontexts, der sich über das gegebene Paragraphen erstreckt, um kontextuell überzeugende Bilder (z.B. mit der richtigen Figur oder dem angemessenen Hintergrund der Szene) zu generieren, eine Herausforderung. Zu diesem Zweck schlagen wir eine neuartige Speicherarchitektur für das bidirektionale Transformer-Framework vor, die während des Trainings durch Online-Textaugmentierung mehrere Pseudo-Beschreibungen als zusätzliche Überwachung erzeugt, um die Generalisierung auf sprachliche Variationen bei der Inferenz zu verbessern. In umfangreichen Experimenten auf den beiden gängigen SV-Benchmarks, nämlich Pororo-SV und Flintstones-SV, übertreffen die vorgeschlagene Methode den Stand der Technik in verschiedenen Metriken wie FID, Charakter-F1, Bildgenauigkeit, BLEU-2/3 und R-Precision bei vergleichbarer oder geringerer Rechenaufwand.

Storyvisualisierung durch Online-Textaugmentierung mit Kontextgedächtnis | Neueste Forschungsarbeiten | HyperAI