vor 8 Monaten

Daechul Ahn¹,§ Daneul Kim² Gwangmo Song³ Seung Hwan Kim³ Honglak Lee³,⁴ Dongyeop Kang⁵ Jonghyun Choi¹,†

Zusammenfassung

Story Visualization (SV) ist eine anspruchsvolle Aufgabe der Text-zu-Bild-Generierung, da sie nicht nur die visuellen Details aus den Textbeschreibungen zu rendern, sondern auch einen langfristigen Kontext über mehrere Sätze hinweg zu kodieren hat. Während frühere Ansätze sich hauptsächlich auf die Erzeugung semantisch relevanter Bilder für jeden Satz konzentrierten, bleibt die Kodierung eines Kontexts, der sich über das gegebene Paragraphen erstreckt, um kontextuell überzeugende Bilder (z.B. mit der richtigen Figur oder dem angemessenen Hintergrund der Szene) zu generieren, eine Herausforderung. Zu diesem Zweck schlagen wir eine neuartige Speicherarchitektur für das bidirektionale Transformer-Framework vor, die während des Trainings durch Online-Textaugmentierung mehrere Pseudo-Beschreibungen als zusätzliche Überwachung erzeugt, um die Generalisierung auf sprachliche Variationen bei der Inferenz zu verbessern. In umfangreichen Experimenten auf den beiden gängigen SV-Benchmarks, nämlich Pororo-SV und Flintstones-SV, übertreffen die vorgeschlagene Methode den Stand der Technik in verschiedenen Metriken wie FID, Charakter-F1, Bildgenauigkeit, BLEU-2/3 und R-Precision bei vergleichbarer oder geringerer Rechenaufwand.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Daechul Ahn¹,§ Daneul Kim² Gwangmo Song³ Seung Hwan Kim³ Honglak Lee³,⁴ Dongyeop Kang⁵ Jonghyun Choi¹,†

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Daechul Ahn¹,§ Daneul Kim² Gwangmo Song³ Seung Hwan Kim³ Honglak Lee³,⁴ Dongyeop Kang⁵ Jonghyun Choi¹,†

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Storyvisualisierung durch Online-Textaugmentierung mit Kontextgedächtnis | Paper | HyperAI

Command Palette

Storyvisualisierung durch Online-Textaugmentierung mit Kontextgedächtnis

Daechul Ahn¹,§ Daneul Kim² Gwangmo Song³ Seung Hwan Kim³ Honglak Lee³,⁴ Dongyeop Kang⁵ Jonghyun Choi¹,†

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Storyvisualisierung durch Online-Textaugmentierung mit Kontextgedächtnis

Daechul Ahn¹,§ Daneul Kim² Gwangmo Song³ Seung Hwan Kim³ Honglak Lee³,⁴ Dongyeop Kang⁵ Jonghyun Choi¹,†

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Storyvisualisierung durch Online-Textaugmentierung mit Kontextgedächtnis

Daechul Ahn¹,§ Daneul Kim² Gwangmo Song³ Seung Hwan Kim³ Honglak Lee³,⁴ Dongyeop Kang⁵ Jonghyun Choi¹,†

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters