HyperAIHyperAI
vor 2 Monaten

Koherente Geschichten mit auto-regressiven latente Diffusionsmodellen synthetisieren

Xichen Pan; Pengda Qin; Yuhong Li; Hui Xue; Wenhu Chen
Koherente Geschichten mit auto-regressiven latente Diffusionsmodellen synthetisieren
Abstract

Bedingte Diffusionsmodelle haben eine erstklassige Text-zu-Bild-Synthesekapazität nachgewiesen. Kürzlich konzentrieren sich die meisten Arbeiten auf die Synthese unabhängiger Bilder; für praktische Anwendungen ist es jedoch üblich und notwendig, eine Reihe kohärenter Bilder zur Erzählung von Geschichten zu generieren. In dieser Arbeit konzentrieren wir uns hauptsächlich auf die Aufgaben der Story-Visualisierung und -Fortsetzung und schlagen AR-LDM vor, ein latentes Diffusionsmodell, das autoregressiv an historische Bildunterschriften (captions) und generierte Bilder angepasst wird. Darüber hinaus kann AR-LDM durch Anpassung neue Charaktere verallgemeinern. Nach unserem besten Wissen ist dies die erste Arbeit, die Diffusionsmodelle erfolgreich zur kohärenten visuellen Geschichtegenerierung einsetzt. Quantitative Ergebnisse zeigen, dass AR-LDM auf PororoSV, FlintstonesSV und dem neu eingeführten anspruchsvollen Datensatz VIST mit natürlichen Bildern beste FID-Werte erreicht. Groß angelegte menschliche Bewertungen belegen, dass AR-LDM in Bezug auf Qualität, Relevanz und Konsistenz überlegene Leistungen zeigt.