HyperAIHyperAI
vor 17 Tagen

Konsistenzmodelle

Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever
Konsistenzmodelle
Abstract

Diffusionsmodelle haben die Bereiche Bild-, Audio- und Videogenerierung erheblich vorangebracht, hängen jedoch aufgrund ihres iterativen Sampling-Prozesses stark von einer langsamen Generierung ab. Um diese Einschränkung zu überwinden, schlagen wir Konsistenzmodelle vor – eine neue Familie von Modellen, die hochwertige Samples direkt durch Abbildung von Rauschen auf Daten erzeugen. Durch ihre Architektur ermöglichen sie bereits eine schnelle Einstep-Generierung, behalten aber gleichzeitig die Möglichkeit multistep-Sampling bei, um Rechenressourcen gegen eine höhere Sample-Qualität einzutauschen. Zudem unterstützen sie zero-shot-Datenbearbeitung, beispielsweise Bild-Inpainting, Colorisierung und Super-Resolution, ohne dass explizite Trainingsaufgaben für diese Aufgaben erforderlich sind. Konsistenzmodelle können entweder durch das Ableiten bereits vortrainierter Diffusionsmodelle oder als eigenständige generative Modelle unabhängig trainiert werden. In umfangreichen Experimenten zeigen wir, dass sie bestehende Ableitungstechniken für Diffusionsmodelle bei Einstep- und Few-step-Sampling übertrifft und einen neuen SOTA-FID-Wert von 3,55 auf CIFAR-10 sowie 6,20 auf ImageNet 64×64 für die Einstep-Generierung erreicht. Wenn isoliert trainiert, entwickeln Konsistenzmodelle sich zu einer neuen Klasse generativer Modelle, die bestehende Einstep- und nicht-antagonistische generative Modelle auf Standardbenchmarks wie CIFAR-10, ImageNet 64×64 und LSUN 256×256 übertrifft.