Score-based Generative Modeling im Latentraum

Score-basierte generative Modelle (SGMs) haben in jüngster Zeit beeindruckende Ergebnisse hinsichtlich der Qualität der generierten Proben sowie der Abdeckung der Verteilung erzielt. Allerdings werden sie üblicherweise direkt im Datenspace angewendet und erfordern oft Tausende Netzwerkevaluierungen für die Probenziehung. In diesem Beitrag stellen wir das Latent Score-based Generative Model (LSGM) vor, einen neuartigen Ansatz, der SGMs in einem latente Raum trainiert und dabei auf dem Framework des variationalen Autoencoders basiert. Der Übergang vom Datenspace in den latente Raum ermöglicht es, ausdrucksstarkere generative Modelle zu trainieren, SGMs auch auf nicht-stetige Daten anzuwenden und glattere SGMs in einem kleineren Raum zu lernen, was zu einer geringeren Anzahl an Netzwerkevaluierungen und schnellerer Probenziehung führt. Um das end-to-end-Training von LSGMs skalierbar und stabil zu gestalten, (i) führen wir ein neues Score-Matching-Ziel ein, das für den LSGM-Ansatz geeignet ist, (ii) schlagen eine neuartige Parametrisierung der Score-Funktion vor, die es dem SGM ermöglicht, sich auf die Diskrepanz der Zielverteilung gegenüber einer einfachen Normalverteilung zu konzentrieren, und (iii) leiten analytisch mehrere Techniken zur Varianzreduktion des Trainingsziels ab. LSGM erreicht auf CIFAR-10 einen state-of-the-art-FID-Score von 2,10 und übertrifft damit alle bisherigen generativen Ergebnisse auf diesem Datensatz. Auf CelebA-HQ-256 erreicht LSGM eine vergleichbare Probenqualität wie frühere SGMs, übertrifft diese jedoch hinsichtlich der Probenzeit um zwei Größenordnungen. Bei der Modellierung binärer Bilder erzielt LSGM einen state-of-the-art-Wert für die Likelihood auf dem binarisierten OMNIGLOT-Datensatz. Die Projektseite und der Quellcode sind unter https://nvlabs.github.io/LSGM verfügbar.