Vision-gesteuerte und maskenverstärkte adaptive Rauschunterdrückung für promptbasierte Bildbearbeitung

Text-to-Image-Diffusionsmodelle haben bemerkenswerte Fortschritte bei der Synthese hochwertiger Bilder aus Textanweisungen gezeigt, was die Forschung zu anweisungsbasierten Bildbearbeitungen ankurbelt, bei denen ein Quellbild gemäß einer Zielanweisung bearbeitet wird. Trotz dieser Fortschritte stoßen bestehende Methoden immer noch auf drei wesentliche Probleme: 1) die begrenzte Fähigkeit des Textanweises, die Generierung des Zielbildes zu leiten, 2) das unzureichende Auswerten von Wort-zu-Patch- und Patch-zu-Patch-Beziehungen zur Verankerung der Bearbeitungsgebiete und 3) eine einheitliche Bearbeitungsstärke für alle Bereiche während jedes Entrauschungsschritts. Um diese Probleme anzugehen, präsentieren wir eine visionsgesteuerte und maskenverstärkte adaptive Bearbeitungsmethode (ViMAEdit), die drei zentrale neuartige Designelemente aufweist. Erstens schlagen wir vor, Bildembeddings als explizite Leitlinie zu nutzen, um den konventionellen textbasierten Entrauschungsprozess zu verbessern, wobei eine CLIP-basierte Strategie zur Schätzung der Zielbildembeddings eingeführt wird. Zweitens entwickeln wir eine iterativ verfeinernde Strategie zur Verankerung von Bearbeitungsgebieten durch Selbst-Aufmerksamkeit (self-attention), die die in den Selbst-Aufmerksamkeitskarten übermittelten Patch-zu-Patch-Beziehungen nutzt, um die in den Kreuz-Aufmerksamkeitskarten enthaltenen Wort-zu-Patch-Beziehungen zu verfeinern. Drittens stellen wir eine räumlich adaptive varianzgesteuerte Stichprobe dar, die die Stichprobenvarianzen für kritische Bildbereiche hervorhebt, um die Bearbeitungsfähigkeit zu fördern. Experimentelle Ergebnisse zeigen die überlegene Bearbeitungsfähigkeit von ViMAEdit im Vergleich zu allen bisherigen Methoden.