Prompt-basierte Bildbearbeitung mit Cross-Attention-Kontrolle

Kürzlich haben groß angelegte, textgesteuerte Synthesemodellen viel Aufmerksamkeit auf sich gezogen, dank ihrer bemerkenswerten Fähigkeiten, hochdiverse Bilder zu erzeugen, die den gegebenen Textanweisungen folgen. Solche textbasierten Syntheseverfahren sind besonders für Menschen ansprechend, die es gewohnt sind, ihre Absichten verbal zu beschreiben. Daher ist es nur natürlich, die textgesteuerte Bildsynthese auf textgesteuerte Bildbearbeitung auszuweiten. Die Bearbeitung stellt für diese generativen Modelle eine Herausforderung dar, da eine inhärente Eigenschaft einer Bearbeitungstechnik darin besteht, den Großteil des ursprünglichen Bildes beizubehalten. In textbasierten Modellen führt jedoch selbst eine kleine Änderung der Textanweisung oft zu einem vollständig anderen Ergebnis. Standesgemäße Methoden mildern dies dadurch ab, dass sie von den Benutzern verlangen, einen räumlichen Maskierungsbereich zur Lokalisierung der Bearbeitung bereitzustellen und damit die ursprüngliche Struktur und den Inhalt innerhalb des maskierten Bereichs ignorieren. In dieser Arbeit streben wir ein intuitives Prompt-zu-Prompt-Bearbeitungsframework an, bei dem die Bearbeitungen ausschließlich durch Text gesteuert werden. Hierzu analysieren wir ein textbedingtes Modell im Detail und stellen fest, dass die Cross-Attention-Schichten entscheidend sind, um das Verhältnis zwischen der räumlichen Anordnung des Bildes und jedem Wort in der Anweisung zu steuern. Auf Basis dieser Beobachtung präsentieren wir mehrere Anwendungen, die die Bildsynthese durch Bearbeitung des textuellen Prompts allein überwachen. Dies beinhaltet lokalisierte Bearbeitungen durch Ersetzen eines Worts, globale Bearbeitungen durch Hinzufügen einer Spezifikation und sogar feine Kontrolle darüber, in welchem Maße ein Wort im Bild widergespiegelt wird. Wir präsentieren unsere Ergebnisse anhand vielfältiger Bilder und Prompts und zeigen hohe Qualität der Synthese sowie Treue zu den bearbeiteten Prompts.