Kaskadierte Diffusionsmodelle für die hochauflösende Bildgenerierung

Wir zeigen, dass kaskadierte Diffusionsmodelle in der Lage sind, hochfidelitätsreiche Bilder im Rahmen der klassenbedingten ImageNet-Generierungsaufgabe zu erzeugen, ohne jegliche Unterstützung durch zusätzliche Bildklassifizierer zur Verbesserung der Sample-Qualität. Ein kaskadiertes Diffusionsmodell besteht aus einer Kette mehrerer Diffusionsmodelle, die Bilder mit zunehmender Auflösung generieren, beginnend mit einem herkömmlichen Diffusionsmodell bei niedrigster Auflösung, gefolgt von einem oder mehreren Super-Resolution-Diffusionsmodellen, die die Bilder schrittweise hochskalieren und feinere Details hinzufügen. Wir stellen fest, dass die Qualität der generierten Bilder in einem kaskadierten Pipeline-System entscheidend von der Bedingungs-Augmentation abhängt, unserer vorgeschlagenen Methode der Daten-Augmentation der niedrigauflösenden Eingaben für die Super-Resolution-Modelle. Unsere Experimente zeigen, dass die Bedingungs-Augmentation die Akkumulation von Fehlern während des Sampling in kaskadierten Modellen verhindert und somit die Entwicklung von Kaskaden-Pipelines ermöglicht, die FID-Werte von 1,48 bei 64×64, 3,52 bei 128×128 und 4,88 bei 256×256 erreichen – dies übertrifft BigGAN-deep. Zudem erzielen diese Modelle Klassifizierungsgenauigkeiten von 63,02 % (Top-1) und 84,06 % (Top-5) bei 256×256, was VQ-VAE-2 übertrifft.