HyperAIHyperAI
vor 17 Tagen

Pyramiden-Diffusionsmodelle für die Verbesserung von Dunkelbildern

Dewei Zhou, Zongxin Yang, Yi Yang
Pyramiden-Diffusionsmodelle für die Verbesserung von Dunkelbildern
Abstract

Die Wiederherstellung von detailschweren Strukturen aus lichtschwachen Bildern, die durch Rauschen verdeckt sind, stellt eine herausfordernde Aufgabe dar, und die Ergebnisse bisheriger Methoden lassen noch Verbesserungspotenzial offen. Kürzlich entwickelte Diffusionsmodelle zeigen eine realistische und detaillierte Bildgenerierung durch eine Folge von Entrauschungsverfeinerungen und motivieren uns, diese Ansätze für die Verbesserung lichtschwacher Bilder einzusetzen, um realistische Details wiederherzustellen. Bei der Anwendung dieser Modelle stießen wir jedoch auf zwei Probleme: Erstens behalten Diffusionsmodelle in einem einzelnen Rückwärtsprozess eine konstante Auflösung, was die Geschwindigkeit einschränkt; zweitens können sie gelegentlich zu einer globalen Degradation führen (z. B. RGB-Shift). Um diese Probleme zu lösen, schlagen wir in diesem Beitrag ein Pyramid-Diffusionsmodell (PyDiff) für die Verbesserung lichtschwacher Bilder vor. PyDiff nutzt eine neuartige Pyramiden-Diffusionsmethode, um die Probenahme in einer pyramidenförmigen Auflösungsstruktur durchzuführen (d. h. schrittweise Erhöhung der Auflösung innerhalb eines einzelnen Rückwärtsprozesses). Die Pyramiden-Diffusion macht PyDiff erheblich schneller als herkömmliche Diffusionsmodelle, ohne dabei eine Leistungsverschlechterung zu verursachen. Darüber hinaus verwendet PyDiff einen globalen Korrektor, um die mögliche globale Degradation im Rückwärtsprozess zu mildern, wodurch die Leistung signifikant verbessert wird und die Trainingsstabilität der Diffusionsmodelle bei nur geringfügigem zusätzlichen Rechenaufwand erleichtert wird. Umfangreiche Experimente auf etablierten Benchmarks zeigen, dass PyDiff sowohl hervorragende Leistung als auch hohe Effizienz erzielt. Zudem verfügt PyDiff über eine gute Generalisierungsfähigkeit hinsichtlich bisher nicht gesehener Rausch- und Beleuchtungsverteilungen.