HyperAIHyperAI
vor 17 Tagen

Variational Diffusion Models

Diederik P. Kingma, Tim Salimans, Ben Poole, Jonathan Ho
Variational Diffusion Models
Abstract

Diffusionsbasierte generative Modelle haben eine bemerkenswerte Fähigkeit zur perceptuell überzeugenden Synthese gezeigt, doch können sie auch hervorragende likelihood-basierte Modelle sein? Wir beantworten diese Frage positiv und stellen eine Familie von diffusionsbasierten generativen Modellen vor, die auf Standardbenchmarks für Bild-Dichteschätzung Zustand der Kunst erzielen. Im Gegensatz zu anderen diffusionsbasierten Modellen ermöglicht unsere Methode die effiziente Optimierung des Rauschplans gemeinsam mit dem Rest des Modells. Wir zeigen, dass die variational lower bound (VLB) sich zu einer bemerkenswert kurzen Darstellung in Abhängigkeit vom Signal-zu-Rausch-Verhältnis der diffundierten Daten vereinfacht, wodurch unser theoretisches Verständnis dieser Modellklasse erheblich verbessert wird. Auf Basis dieses Einblicks beweisen wir eine Äquivalenz mehrerer in der Literatur vorgeschlagener Modelle. Zudem zeigen wir, dass die kontinuierliche VLB bis auf das Signal-zu-Rausch-Verhältnis an ihren Endpunkten invariant gegenüber dem Rauschplan ist. Dies ermöglicht es uns, einen Rauschplan zu lernen, der die Varianz des resultierenden VLB-Schätzers minimiert und somit eine beschleunigte Optimierung ermöglicht. Durch die Kombination dieser Fortschritte mit architektonischen Verbesserungen erreichen wir auf Benchmarks für Bild-Dichteschätzung Zustand der Kunst, wobei wir autoregressive Modelle übertrumpfen, die diese Benchmarks jahrelang dominiert haben, und dies oft mit deutlich schnellerer Optimierung. Darüber hinaus zeigen wir, wie das Modell als Bestandteil eines Bits-Back-Kompressionsverfahrens eingesetzt werden kann, und demonstrieren verlustfreie Kompressionsraten nahe am theoretischen Optimum. Der Quellcode ist unter https://github.com/google-research/vdm verfügbar.