Command Palette
Search for a command to run...
Kaskadierte Diffusionsmodelle für die hochauflösende Bildgenerierung
Kaskadierte Diffusionsmodelle für die hochauflösende Bildgenerierung
Jonathan Ho Chitwan Saharia William Chan David J. Fleet Mohammad Norouzi Tim Salimans
Zusammenfassung
Wir zeigen, dass kaskadierte Diffusionsmodelle in der Lage sind, hochfidelitätsreiche Bilder im Rahmen der klassenbedingten ImageNet-Generierungsaufgabe zu erzeugen, ohne jegliche Unterstützung durch zusätzliche Bildklassifizierer zur Verbesserung der Sample-Qualität. Ein kaskadiertes Diffusionsmodell besteht aus einer Kette mehrerer Diffusionsmodelle, die Bilder mit zunehmender Auflösung generieren, beginnend mit einem herkömmlichen Diffusionsmodell bei niedrigster Auflösung, gefolgt von einem oder mehreren Super-Resolution-Diffusionsmodellen, die die Bilder schrittweise hochskalieren und feinere Details hinzufügen. Wir stellen fest, dass die Qualität der generierten Bilder in einem kaskadierten Pipeline-System entscheidend von der Bedingungs-Augmentation abhängt, unserer vorgeschlagenen Methode der Daten-Augmentation der niedrigauflösenden Eingaben für die Super-Resolution-Modelle. Unsere Experimente zeigen, dass die Bedingungs-Augmentation die Akkumulation von Fehlern während des Sampling in kaskadierten Modellen verhindert und somit die Entwicklung von Kaskaden-Pipelines ermöglicht, die FID-Werte von 1,48 bei 64×64, 3,52 bei 128×128 und 4,88 bei 256×256 erreichen – dies übertrifft BigGAN-deep. Zudem erzielen diese Modelle Klassifizierungsgenauigkeiten von 63,02 % (Top-1) und 84,06 % (Top-5) bei 256×256, was VQ-VAE-2 übertrifft.