MasaCtrl: Einstellungsloser gegenseitiger Selbst-Aufmerksamkeits-Kontrolle für konsistente Bildsynthese und -bearbeitung

Trotz des Erfolgs bei der großmaßstäblichen Text-zu-Bild-Generierung und der textbedingten Bildbearbeitung haben bestehende Methoden weiterhin Schwierigkeiten, konsistente Generierungs- und Bearbeitungsergebnisse zu erzielen. Zum Beispiel scheitern Generierungsansätze oft daran, mehrere Bilder derselben Objekte oder Figuren mit unterschiedlichen Ansichten oder Haltungen zu synthetisieren. Gleichzeitig entweder versagen existierende Bearbeitungsmethoden daran, effektive komplexe nicht-starre Bearbeitungen durchzuführen, während sie die Gesamttextur und Identität beibehalten, oder sie erfordern zeitaufwendige Feinabstimmungen, um das bildspezifische Erscheinungsbild zu erfassen. In dieser Arbeit entwickeln wir MasaCtrl, eine feinabstimmungsfreie Methode, die gleichzeitig konsistente Bildgenerierung und komplexe nicht-starre Bildbearbeitung ermöglicht. Insbesondere wandelt MasaCtrl den vorhandenen Selbst-Attention-Mechanismus in Diffusionsmodellen in einen gegenseitigen Selbst-Attention-Mechanismus um, sodass er korrelierte lokale Inhalte und Texturen aus Quellbildern für Konsistenz abfragen kann. Um die Abfrageverwirrung zwischen Vordergrund und Hintergrund weiter zu reduzieren, schlagen wir eine maskegeleitete Strategie für gegenseitigen Selbst-Attention vor, bei der die Maske einfach aus den Cross-Attention-Karten extrahiert werden kann. Ausführliche Experimente zeigen, dass das vorgeschlagene MasaCtrl beeindruckende Ergebnisse sowohl in der konsistenten Bildgenerierung als auch in der komplexen nicht-starren Realitätsbildbearbeitung erzielt.