vor 17 Tagen

Kaskadierte Diffusionsmodelle für die hochauflösende Bildgenerierung

Jonathan Ho, Chitwan Saharia, William Chan, David J. Fleet, Mohammad Norouzi, Tim Salimans

Abstract

Wir zeigen, dass kaskadierte Diffusionsmodelle in der Lage sind, hochfidelitätsreiche Bilder im Rahmen der klassenbedingten ImageNet-Generierungsaufgabe zu erzeugen, ohne jegliche Unterstützung durch zusätzliche Bildklassifizierer zur Verbesserung der Sample-Qualität. Ein kaskadiertes Diffusionsmodell besteht aus einer Kette mehrerer Diffusionsmodelle, die Bilder mit zunehmender Auflösung generieren, beginnend mit einem herkömmlichen Diffusionsmodell bei niedrigster Auflösung, gefolgt von einem oder mehreren Super-Resolution-Diffusionsmodellen, die die Bilder schrittweise hochskalieren und feinere Details hinzufügen. Wir stellen fest, dass die Qualität der generierten Bilder in einem kaskadierten Pipeline-System entscheidend von der Bedingungs-Augmentation abhängt, unserer vorgeschlagenen Methode der Daten-Augmentation der niedrigauflösenden Eingaben für die Super-Resolution-Modelle. Unsere Experimente zeigen, dass die Bedingungs-Augmentation die Akkumulation von Fehlern während des Sampling in kaskadierten Modellen verhindert und somit die Entwicklung von Kaskaden-Pipelines ermöglicht, die FID-Werte von 1,48 bei 64×64, 3,52 bei 128×128 und 4,88 bei 256×256 erreichen – dies übertrifft BigGAN-deep. Zudem erzielen diese Modelle Klassifizierungsgenauigkeiten von 63,02 % (Top-1) und 84,06 % (Top-5) bei 256×256, was VQ-VAE-2 übertrifft.