DisCo-Diff: Verbesserung kontinuierlicher Diffusionsmodelle durch diskrete Latentvariablen

Diffusionsmodelle (DMs) haben die generative Lernung revolutioniert. Sie nutzen einen Diffusionsprozess, um Daten in eine einfache Gaußsche Verteilung zu kodieren. Die Kodierung einer komplexen, potenziell multimodalen Datenverteilung in eine einzige kontinuierliche Gaußsche Verteilung stellt jedoch vermutlich ein unnötig schwieriges Lernproblem dar. Wir schlagen Discrete-Continuous Latent Variable Diffusion Models (DisCo-Diff) vor, um diese Aufgabe zu vereinfachen, indem wir ergänzende diskrete Latentvariablen einführen. Wir erweitern DMs um lernbare diskrete Latentvariablen, die mit einem Encoder abgeleitet werden, und trainieren DM und Encoder end-to-end. DisCo-Diff beruht nicht auf vortrainierten Netzwerken, wodurch der Rahmen universell einsetzbar ist. Die diskreten Latentvariablen vereinfachen die Lernung der komplexen Rausch-zu-Daten-Abbildung des DM erheblich, indem sie die Krümmung der generativen ODE des DM verringern. Zusätzlich modelliert ein autoregressiver Transformer die Verteilung der diskreten Latentvariablen – ein einfacher Schritt, da DisCo-Diff lediglich wenige diskrete Variablen mit kleinen Codebüchern erfordert. Wir validieren DisCo-Diff an synthetischen Datensätzen, mehreren Aufgaben zur Bildsynthese sowie bei der molekularen Docking-Aufgabe und finden, dass die Einführung diskreter Latentvariablen die Modellleistung konsistent verbessert. Beispielsweise erreicht DisCo-Diff state-of-the-art FID-Scores auf den klassenbedingten ImageNet-64/128-Datensätzen mit ODE-Sampler.