HyperAIHyperAI

Command Palette

Search for a command to run...

Prompt-basierte Bildbearbeitung mit Cross-Attention-Kontrolle

Amir Hertz*1,2, Ron Mokady*1,2, Jay Tenenbaum1, Kfir Aberman1, Yael Pritch1, and Daniel Cohen-Or*1,2

Zusammenfassung

Kürzlich haben groß angelegte, textgesteuerte Synthesemodellen viel Aufmerksamkeit auf sich gezogen, dank ihrer bemerkenswerten Fähigkeiten, hochdiverse Bilder zu erzeugen, die den gegebenen Textanweisungen folgen. Solche textbasierten Syntheseverfahren sind besonders für Menschen ansprechend, die es gewohnt sind, ihre Absichten verbal zu beschreiben. Daher ist es nur natürlich, die textgesteuerte Bildsynthese auf textgesteuerte Bildbearbeitung auszuweiten. Die Bearbeitung stellt für diese generativen Modelle eine Herausforderung dar, da eine inhärente Eigenschaft einer Bearbeitungstechnik darin besteht, den Großteil des ursprünglichen Bildes beizubehalten. In textbasierten Modellen führt jedoch selbst eine kleine Änderung der Textanweisung oft zu einem vollständig anderen Ergebnis. Standesgemäße Methoden mildern dies dadurch ab, dass sie von den Benutzern verlangen, einen räumlichen Maskierungsbereich zur Lokalisierung der Bearbeitung bereitzustellen und damit die ursprüngliche Struktur und den Inhalt innerhalb des maskierten Bereichs ignorieren. In dieser Arbeit streben wir ein intuitives Prompt-zu-Prompt-Bearbeitungsframework an, bei dem die Bearbeitungen ausschließlich durch Text gesteuert werden. Hierzu analysieren wir ein textbedingtes Modell im Detail und stellen fest, dass die Cross-Attention-Schichten entscheidend sind, um das Verhältnis zwischen der räumlichen Anordnung des Bildes und jedem Wort in der Anweisung zu steuern. Auf Basis dieser Beobachtung präsentieren wir mehrere Anwendungen, die die Bildsynthese durch Bearbeitung des textuellen Prompts allein überwachen. Dies beinhaltet lokalisierte Bearbeitungen durch Ersetzen eines Worts, globale Bearbeitungen durch Hinzufügen einer Spezifikation und sogar feine Kontrolle darüber, in welchem Maße ein Wort im Bild widergespiegelt wird. Wir präsentieren unsere Ergebnisse anhand vielfältiger Bilder und Prompts und zeigen hohe Qualität der Synthese sowie Treue zu den bearbeiteten Prompts.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Prompt-basierte Bildbearbeitung mit Cross-Attention-Kontrolle | Paper | HyperAI