SinDiffusion: Ein Diffusionsmodell aus einem einzelnen natürlichen Bild lernen

Wir präsentieren SinDiffusion, eine Methode, die auf den stochastischen Diffusionsmodellen basiert und es ermöglicht, die interne Verteilung von Patchs aus einem einzelnen natürlichen Bild zu erfassen. SinDiffusion verbessert die Qualität und Vielfalt der generierten Samples erheblich im Vergleich zu bestehenden GAN-basierten Ansätzen. Sie beruht auf zwei zentralen Designentscheidungen. Erstens wird SinDiffusion mit einem einzigen Modell bei einer einzigen Skala trainiert, anstatt wie in früheren Arbeiten üblich mit mehreren Modellen und fortschreitendem Wachstum der Skalen. Dies vermeidet die Akkumulation von Fehlern, die charakteristische Artefakte in den generierten Ergebnissen verursachen. Zweitens haben wir festgestellt, dass ein patchbasiertes Rezeptivfeld des Diffusionsnetzwerks entscheidend und effektiv für das Erfassen der Patch-Statistiken des Bildes ist. Daher haben wir die Netzwerkstruktur des Diffusionsmodells neu gestaltet. Die Kombination dieser beiden Designentscheidungen ermöglicht es uns, photorealistische und vielfältige Bilder aus einem einzelnen Bild zu generieren. Darüber hinaus kann SinDiffusion aufgrund der inhärenten Fähigkeiten von Diffusionsmodellen in verschiedene Anwendungen eingesetzt werden, wie zum Beispiel textgeführte Bildgenerierung und Bildausmalung (outpainting). Umfangreiche Experimente mit einer breiten Palette von Bildern zeigen die Überlegenheit unserer vorgeschlagenen Methode zur Modellierung der Patch-Verteilung.