HyperAIHyperAI

Command Palette

Search for a command to run...

MasaCtrl: Einstellungsloser gegenseitiger Selbst-Aufmerksamkeits-Kontrolle für konsistente Bildsynthese und -bearbeitung

Mingdeng Cao extsuperscript1,2 ootnoteWork done during an internship at ARC Lab, Tencent PCG. Xintao Wang extsuperscript2 ootnoteARC Lab, Tencent PCG. Zhongang Qi extsuperscript2 Ying Shan extsuperscript2 Xiaohu Qie extsuperscript2 Yinqiang Zheng extsuperscript1

Zusammenfassung

Trotz des Erfolgs bei der großmaßstäblichen Text-zu-Bild-Generierung und der textbedingten Bildbearbeitung haben bestehende Methoden weiterhin Schwierigkeiten, konsistente Generierungs- und Bearbeitungsergebnisse zu erzielen. Zum Beispiel scheitern Generierungsansätze oft daran, mehrere Bilder derselben Objekte oder Figuren mit unterschiedlichen Ansichten oder Haltungen zu synthetisieren. Gleichzeitig entweder versagen existierende Bearbeitungsmethoden daran, effektive komplexe nicht-starre Bearbeitungen durchzuführen, während sie die Gesamttextur und Identität beibehalten, oder sie erfordern zeitaufwendige Feinabstimmungen, um das bildspezifische Erscheinungsbild zu erfassen. In dieser Arbeit entwickeln wir MasaCtrl, eine feinabstimmungsfreie Methode, die gleichzeitig konsistente Bildgenerierung und komplexe nicht-starre Bildbearbeitung ermöglicht. Insbesondere wandelt MasaCtrl den vorhandenen Selbst-Attention-Mechanismus in Diffusionsmodellen in einen gegenseitigen Selbst-Attention-Mechanismus um, sodass er korrelierte lokale Inhalte und Texturen aus Quellbildern für Konsistenz abfragen kann. Um die Abfrageverwirrung zwischen Vordergrund und Hintergrund weiter zu reduzieren, schlagen wir eine maskegeleitete Strategie für gegenseitigen Selbst-Attention vor, bei der die Maske einfach aus den Cross-Attention-Karten extrahiert werden kann. Ausführliche Experimente zeigen, dass das vorgeschlagene MasaCtrl beeindruckende Ergebnisse sowohl in der konsistenten Bildgenerierung als auch in der komplexen nicht-starren Realitätsbildbearbeitung erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp