Unterraum-Diffusions-generierende Modelle

Score-basierte Modelle generieren Samples, indem sie Rauschen über einen hochdimensionalen Diffusionsprozess in Daten (und umgekehrt) abbilden. Wir fragen uns, ob es notwendig ist, diesen gesamten Prozess in hoher Dimension durchzuführen und alle damit verbundenen Nachteile in Kauf zu nehmen. Stattdessen beschränken wir die Diffusion durch Projektionen auf Unterräume, während die Datenverteilung sich der Rauschverteilung annähert. Angewendet auf state-of-the-art-Modelle verbessert unser Framework gleichzeitig die Qualität der generierten Samples – erreicht eine FID von 2,17 auf unbedingtem CIFAR-10 – und senkt gleichzeitig die Rechenkosten der Inferenz bei gleichbleibender Anzahl von Denoisingschritten. Unser Framework ist vollständig kompatibel mit kontinuierlicher Zeit-Diffusion und bewahrt deren flexible Fähigkeiten, einschließlich exakter Log-Wahrscheinlichkeiten und steuerbarer Generierung. Der Quellcode ist verfügbar unter https://github.com/bjing2016/subspace-diffusion.