HyperAIHyperAI

Command Palette

Search for a command to run...

Storyvisualisierung durch Online-Textaugmentierung mit Kontextgedächtnis

Daechul Ahn¹,§ Daneul Kim² Gwangmo Song³ Seung Hwan Kim³ Honglak Lee³,⁴ Dongyeop Kang⁵ Jonghyun Choi¹,†

Zusammenfassung

Story Visualization (SV) ist eine anspruchsvolle Aufgabe der Text-zu-Bild-Generierung, da sie nicht nur die visuellen Details aus den Textbeschreibungen zu rendern, sondern auch einen langfristigen Kontext über mehrere Sätze hinweg zu kodieren hat. Während frühere Ansätze sich hauptsächlich auf die Erzeugung semantisch relevanter Bilder für jeden Satz konzentrierten, bleibt die Kodierung eines Kontexts, der sich über das gegebene Paragraphen erstreckt, um kontextuell überzeugende Bilder (z.B. mit der richtigen Figur oder dem angemessenen Hintergrund der Szene) zu generieren, eine Herausforderung. Zu diesem Zweck schlagen wir eine neuartige Speicherarchitektur für das bidirektionale Transformer-Framework vor, die während des Trainings durch Online-Textaugmentierung mehrere Pseudo-Beschreibungen als zusätzliche Überwachung erzeugt, um die Generalisierung auf sprachliche Variationen bei der Inferenz zu verbessern. In umfangreichen Experimenten auf den beiden gängigen SV-Benchmarks, nämlich Pororo-SV und Flintstones-SV, übertreffen die vorgeschlagene Methode den Stand der Technik in verschiedenen Metriken wie FID, Charakter-F1, Bildgenauigkeit, BLEU-2/3 und R-Precision bei vergleichbarer oder geringerer Rechenaufwand.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Storyvisualisierung durch Online-Textaugmentierung mit Kontextgedächtnis | Paper | HyperAI