Verbesserung der diffusionsbasierten Bildsynthese durch Kontextvorhersage

Diffusionsmodelle sind eine neue Klasse generativer Modelle und haben die Bildgenerierung mit bisher ungekannter Qualität und Vielfalt maßgeblich vorangetrieben. Bisherige Diffusionsmodelle versuchen hauptsächlich, das Eingabebild aus einer beschädigten Version mittels punktweiser oder merkmalsbasierter Einschränkungen entlang der räumlichen Achsen wiederherzustellen. Eine solche punktbasierte Rekonstruktion kann jedoch versagen, die räumliche Nachbarschaftsstruktur jedes vorhergesagten Pixels oder Merkmals vollständig zu bewahren, was die Bildsynthese basierend auf Diffusion beeinträchtigt. Als eine leistungsfähige Quelle automatischer Überwachungssignale ist der Kontext bereits gut erforscht, um repräsentative Lernstrategien zu entwickeln. Inspiriert davon schlagen wir erstmals ConPreDiff vor, um die Bildsynthese basierend auf Diffusion durch Kontextvorhersage zu verbessern. Dabei verstärken wir explizit jeden Punkt während des Trainings, seinen räumlichen Kontext (d. h. mehrfach abgetastete Merkmale/Tokens/Pixels) mittels eines Kontextdekodiers am Ende der Diffusionsentrauschungsblöcke vorherzusagen, während der Dekoder im Inferenzprozess entfernt wird. Auf diese Weise kann jeder Punkt sich selbst besser rekonstruieren, indem er die semantischen Beziehungen zu seiner Nachbarschaft bewahrt. Dieses neue Paradigma von ConPreDiff lässt sich ohne zusätzliche Parameter im Sampling-Prozess auf beliebige diskrete und kontinuierliche Diffusionsbackbones generalisieren. Umfassende Experimente werden auf Aufgaben der bedingungslosen Bildgenerierung, Text-zu-Bild-Generierung und Bild-Inpainting durchgeführt. ConPreDiff übertrifft konsistent alle vorherigen Methoden und erzielt auf MS-COCO neue SOTA-Ergebnisse bei der Text-zu-Bild-Generierung mit einer FID-Score von 6,21 im Zero-Shot-Setting.