Diffusionsmodelle mit gelernter adaptiver Rauschkomponente

Diffusionsmodelle haben sich als leistungsfähige Algorithmen zur Synthese hochwertiger Bilder etabliert. Zentraler Bestandteil dieser Algorithmen ist der Diffusionsprozess, eine Reihe von Gleichungen, die Daten auf Rauschen abbilden, wobei diese Abbildung erheblichen Einfluss auf die Leistung haben kann. In diesem Artikel untersuchen wir, ob der Diffusionsprozess aus Daten gelernt werden kann. Unsere Arbeit basiert auf der Bayesschen Inferenz und zielt darauf ab, die Schätzung der Log-Wahrscheinlichkeit zu verbessern, indem wir den gelernten Diffusionsprozess als eine approximative variationalen Posterior interpretieren, die eine engeren unteren Schranke (ELBO) für die Wahrscheinlichkeit liefert. Eine weit verbreitete Annahme besagt, dass die ELBO invariant gegenüber dem Rauschprozess ist – unsere Arbeit widerlegt diese Annahme und stellt multivariate gelernte adaptive Rauschverfahren (MULAN) vor, einen gelernten Diffusionsprozess, der in verschiedenen Regionen eines Bildes unterschiedliche Rauschraten anwendet. Insbesondere beruht unsere Methode auf einem mehrdimensionalen Rauschplan, der eine Funktion der Daten ist, um sicherzustellen, dass die ELBO im Gegensatz zu früheren Ansätzen nicht mehr invariant gegenüber der Wahl des Rauschplans ist. Empirisch erreicht MULAN eine neue State-of-the-Art-Leistung bei der Dichteschätzung auf CIFAR-10 und ImageNet und reduziert die Anzahl der Trainingsiterationen um 50 %. Wir stellen den Quellcode sowie einen Blogbeitrag und ein Video-Tutorial auf der Projektseite bereit: https://s-sahoo.com/MuLAN