HyperAIHyperAI

Command Palette

Search for a command to run...

Koherente Geschichten mit auto-regressiven latente Diffusionsmodellen synthetisieren

Xichen Pan Pengda Qin Yuhong Li Hui Xue Wenhua Chen

Zusammenfassung

Bedingte Diffusionsmodelle haben eine erstklassige Text-zu-Bild-Synthesekapazität nachgewiesen. Kürzlich konzentrieren sich die meisten Arbeiten auf die Synthese unabhängiger Bilder; für praktische Anwendungen ist es jedoch üblich und notwendig, eine Reihe kohärenter Bilder zur Erzählung von Geschichten zu generieren. In dieser Arbeit konzentrieren wir uns hauptsächlich auf die Aufgaben der Story-Visualisierung und -Fortsetzung und schlagen AR-LDM vor, ein latentes Diffusionsmodell, das autoregressiv an historische Bildunterschriften (captions) und generierte Bilder angepasst wird. Darüber hinaus kann AR-LDM durch Anpassung neue Charaktere verallgemeinern. Nach unserem besten Wissen ist dies die erste Arbeit, die Diffusionsmodelle erfolgreich zur kohärenten visuellen Geschichtegenerierung einsetzt. Quantitative Ergebnisse zeigen, dass AR-LDM auf PororoSV, FlintstonesSV und dem neu eingeführten anspruchsvollen Datensatz VIST mit natürlichen Bildern beste FID-Werte erreicht. Groß angelegte menschliche Bewertungen belegen, dass AR-LDM in Bezug auf Qualität, Relevanz und Konsistenz überlegene Leistungen zeigt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp