Semantik leitet den Weg: Harmonisierung von Semantik- und Texturmodellierung mit asynchroner latenter Diffusion
Semantik leitet den Weg: Harmonisierung von Semantik- und Texturmodellierung mit asynchroner latenter Diffusion
Yueming Pan Ruoyu Feng Qi Dai Yuqi Wang Wenfeng Lin Mingyu Guo Chong Luo Nanning Zheng

Abstract
Latente Diffusionsmodelle (LDMs) folgen intrinsisch einem Grob-zu-Fein-Generierungsprozess, bei dem die hochlevelige semantische Struktur leicht vor der feinkörnigen Textur generiert wird. Dies deutet darauf hin, dass die vorherige Semantik die Texturgenerierung durch Bereitstellung einer semantischen Ankerposition potenziell verbessern kann. In jüngster Zeit wurden semantische Priorwissen aus vortrainierten visuellen Encodern integriert, um LDMs weiter zu verbessern. Dennoch werden Semantik und VAE-kodiertes Textur-Feature weiterhin synchron de-noisiert, wodurch die zeitliche Ordnung vernachlässigt wird. Ausgehend von diesen Beobachtungen schlagen wir Semantic-First Diffusion (SFD) vor – ein latentes Diffusionsparadigma, das die semantische Formulierung explizit priorisiert. SFD konstruiert zunächst zusammengesetzte Latent-Variablen, indem ein kompakter semantischer Latent, der über einen speziell für Semantik konzipierten VAE aus einem vortrainierten visuellen Encoder extrahiert wird, mit dem Textur-Latent kombiniert wird. Der Kern von SFD liegt in der asynchronen De-noisierung des semantischen und des Textur-Latent-Variablen mittels getrennter Rausch-Schedules: Die Semantik folgt der Textur zeitlich mit einer Verzögerung, wodurch eine klarere hochlevelige Anleitung für die Feinabstimmung der Textur bereitgestellt wird und eine natürliche Grob-zu-Fein-Generierung ermöglicht wird. Auf ImageNet in 256×256 mit Guidance erreicht SFD einen FID von 1,06 (LightningDiT-XL) und 1,04 (1,0B LightningDiT-XXL), wobei die Konvergenz bis zu 100-mal schneller erfolgt als beim ursprünglichen DiT. SFD verbessert zudem bestehende Ansätze wie ReDi und VA-VAE und demonstriert die Wirksamkeit eines asynchronen, semantikgeleiteten Modellierungsansatzes. Projektseite und Code: https://yuemingpan.github.io/SFD.github.io/.
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.