Palette: Bild-zu-Bild-Diffusionsmodelle

Dieses Papier entwickelt ein einheitliches Framework für die Bild-zu-Bild-Übersetzung auf der Basis bedingter Diffusionsmodelle und bewertet dieses Framework anhand von vier anspruchsvollen Bild-zu-Bild-Übersetzungsaufgaben, nämlich der Farbgebung (colorization), dem Inpainting, dem Uncropping und der JPEG-Wiederherstellung. Unsere einfache Implementierung von Bild-zu-Bild-Diffusionsmodellen übertrifft starke GAN- und Regressionsbaselines in allen Aufgaben, ohne dass eine task-spezifische Hyperparameter-Anpassung, Architekturcustomisierung oder irgendeine zusätzliche Verlustfunktion oder komplizierte neue Techniken erforderlich wären. Wir untersuchen den Einfluss eines L2- im Vergleich zu einem L1-Verlust in der Denoising-Diffusionszielsetzung auf die Vielfalt der Proben und demonstrieren durch empirische Studien die Bedeutung von Selbst-Aufmerksamkeit (self-attention) in der neuronalen Architektur. Besonders wichtig ist unser Plädoyer für ein einheitliches Evaluationsprotokoll basierend auf ImageNet, das menschliche Bewertungen und Probenqualitätsscores (FID, Inception-Score, Klassifikationsgenauigkeit eines vortrainierten ResNet-50 und Wahrnehmungsabstand gegenüber den Originalbildern) umfasst. Wir erwarten, dass dieses standardisierte Evaluationsprotokoll eine Rolle bei der Förderung der Forschung zur Bild-zu-Bild-Übersetzung spielen wird. Schließlich zeigen wir, dass ein Generalistisches, mehrfachtaskfähiges Diffusionsmodell genauso gut oder besser als task-spezifische Spezialisten abschneidet. Eine Übersicht der Ergebnisse finden Sie unter https://diffusion-palette.github.io.