HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserung der diffusionsbasierten Bildsynthese durch Kontextvorhersage

Ling Yang Jingwei Liu Shenda Hong Zhilong Zhang Zhilin Huang Zheming Cai Wentao Zhang Bin Cui

Zusammenfassung

Diffusionsmodelle sind eine neue Klasse generativer Modelle und haben die Bildgenerierung mit bisher ungekannter Qualität und Vielfalt maßgeblich vorangetrieben. Bisherige Diffusionsmodelle versuchen hauptsächlich, das Eingabebild aus einer beschädigten Version mittels punktweiser oder merkmalsbasierter Einschränkungen entlang der räumlichen Achsen wiederherzustellen. Eine solche punktbasierte Rekonstruktion kann jedoch versagen, die räumliche Nachbarschaftsstruktur jedes vorhergesagten Pixels oder Merkmals vollständig zu bewahren, was die Bildsynthese basierend auf Diffusion beeinträchtigt. Als eine leistungsfähige Quelle automatischer Überwachungssignale ist der Kontext bereits gut erforscht, um repräsentative Lernstrategien zu entwickeln. Inspiriert davon schlagen wir erstmals ConPreDiff vor, um die Bildsynthese basierend auf Diffusion durch Kontextvorhersage zu verbessern. Dabei verstärken wir explizit jeden Punkt während des Trainings, seinen räumlichen Kontext (d. h. mehrfach abgetastete Merkmale/Tokens/Pixels) mittels eines Kontextdekodiers am Ende der Diffusionsentrauschungsblöcke vorherzusagen, während der Dekoder im Inferenzprozess entfernt wird. Auf diese Weise kann jeder Punkt sich selbst besser rekonstruieren, indem er die semantischen Beziehungen zu seiner Nachbarschaft bewahrt. Dieses neue Paradigma von ConPreDiff lässt sich ohne zusätzliche Parameter im Sampling-Prozess auf beliebige diskrete und kontinuierliche Diffusionsbackbones generalisieren. Umfassende Experimente werden auf Aufgaben der bedingungslosen Bildgenerierung, Text-zu-Bild-Generierung und Bild-Inpainting durchgeführt. ConPreDiff übertrifft konsistent alle vorherigen Methoden und erzielt auf MS-COCO neue SOTA-Ergebnisse bei der Text-zu-Bild-Generierung mit einer FID-Score von 6,21 im Zero-Shot-Setting.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verbesserung der diffusionsbasierten Bildsynthese durch Kontextvorhersage | Paper | HyperAI