OmniPSD: Layered PSD Generation with Diffusion Transformer
OmniPSD: Layered PSD Generation with Diffusion Transformer
Cheng Liu Yiren Song Haofan Wang Mike Zheng Shou

Abstract
Neuere Fortschritte bei Diffusionsmodellen haben die Bildgenerierung und -bearbeitung erheblich verbessert, doch die Erzeugung oder Rekonstruktion von mehrschichtigen PSD-Dateien mit transparenten Alpha-Kanälen bleibt weiterhin äußerst herausfordernd. Wir stellen OmniPSD vor, einen einheitlichen Diffusionsrahmen, der auf der Flux-Ecosystem aufbaut und sowohl die Text-zu-PSD-Generierung als auch die Bild-zu-PSD-Zerlegung mittels In-Context-Lernen ermöglicht. Bei der Text-zu-PSD-Generierung ordnet OmniPSD mehrere Ziel-Ebenen räumlich auf einer einzigen Leinwand an und lernt deren zusammengesetzte Beziehungen durch räumliche Aufmerksamkeit, wodurch semantisch konsistente und hierarchisch strukturierte Ebenen entstehen. Bei der Bild-zu-PSD-Zerlegung führt es iterative In-Context-Bearbeitungen durch, bei denen textuelle und vordergrundbasierte Komponenten schrittweise extrahiert und entfernt werden, um aus einem einzigen flachen Bild editierbare PSD-Ebenen wiederherzustellen. Ein RGBA-VAE dient als ergänzende Repräsentationskomponente, um die Transparenz zu bewahren, ohne die Struktur-Lernfähigkeit zu beeinträchtigen. Umfangreiche Experimente an unserem neuen RGBA-basierten Datensatz zeigen, dass OmniPSD eine hochfidele Generierung, strukturelle Konsistenz und Transparenzbewusstsein erreicht und damit ein neues Paradigma für die mehrschichtige Gestaltungsgenerierung und -zerlegung mit Diffusions-Transformern eröffnet.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.