HyperAIHyperAI
vor 2 Monaten

Stochastische bedingte Diffusionsmodelle für robuste semantische Bildsynthese

Juyeon Ko; Inho Kong; Dogyun Park; Hyunwoo J. Kim
Stochastische bedingte Diffusionsmodelle für robuste semantische Bildsynthese
Abstract

Die semantische Bildsynthese (SIS) ist eine Aufgabe, bei der realistische Bilder generiert werden, die zu semantischen Karten (Labels) passen. In praktischen Anwendungen begegnet SIS jedoch oft fehlerhaften Benutzereingaben. Um dieses Problem anzugehen, schlagen wir das stochastische bedingte Diffusionsmodell (Stochastic Conditional Diffusion Model, SCDM) vor. Dieses Modell ist ein robustes bedingtes Diffusionsmodell, das neuartige Vorwärts- und Generierungsprozesse aufweist, die speziell für SIS mit verrauschten Labels entwickelt wurden. Es verbessert die Robustheit, indem es die semantischen Labelkarten durch Label-Diffusion stochastisch verfälscht, wobei die Labels mit diskreter Diffusion verbreitet werden. Durch die Diffusion der Labels werden die verrauschten und sauberen semantischen Karten ähnlich, während sich der Zeitschritt erhöht, und schließlich identisch bei ( t = T ). Dies ermöglicht die Erzeugung eines Bildes, das einem sauberen Bild nahekommt, und fördert eine robuste Generierung. Darüber hinaus schlagen wir einen klassenspezifischen Rauschplan vor, um die Labels je nach Klasse differenziell zu diffundieren. Wir zeigen durch umfangreiche Experimente und Analysen auf Benchmark-Datensätzen, darunter einer neuen experimentellen Einrichtung zur Simulation von menschlichen Fehlern in realen Anwendungen, dass die vorgeschlagene Methode hochwertige Beispiele erzeugt. Der Quellcode ist unter https://github.com/mlvlab/SCDM verfügbar.

Stochastische bedingte Diffusionsmodelle für robuste semantische Bildsynthese | Neueste Forschungsarbeiten | HyperAI