Einfache Diffusion: End-to-End-Diffusion für hochauflösende Bilder

Derzeit ist die Anwendung von Diffusionsmodellen im Pixelfeld hochauflösender Bilder schwierig. Stattdessen konzentrieren sich bestehende Ansätze auf Diffusionen in niedrigerdimensionalen Räumen (latente Diffusion) oder verwenden mehrstufige Super-Resolution-Generierungsprozesse, sogenannte Cascades. Der Nachteil dieser Ansätze liegt in der zusätzlichen Komplexität, die sie dem Diffusionsframework hinzufügen.Diese Arbeit zielt darauf ab, die Entrauschungsdiffusion für hochauflösende Bilder zu verbessern, während das Modell so einfach wie möglich gehalten wird. Zentrale Forschungsfrage ist: Wie kann man ein herkömmliches Entrauschungs-Diffusionsmodell auf hochauflösenden Bildern trainieren, ohne dabei die Leistungsfähigkeit alternativer Ansätze zu unterschätzen?Die vier Hauptbefunde lauten: 1) Der Rauschplan sollte für hochauflösende Bilder angepasst werden; 2) Es genügt, nur einen bestimmten Teil der Architektur zu skalieren; 3) Dropout sollte an spezifischen Stellen innerhalb der Architektur hinzugefügt werden; 4) Downsampling ist eine effektive Strategie, um hochauflösende Feature-Maps zu vermeiden. Durch die Kombination dieser einfachen, jedoch hochwirksamen Techniken erreichen wir einen State-of-the-Art-Standard bei der Bildgenerierung unter Diffusionsmodellen ohne Verwendung von Sampling-Modifikatoren auf ImageNet.