HyperAIHyperAI

Command Palette

Search for a command to run...

StyleDiffusion: Prompt-Embedding-Inversion für textbasierte Bearbeitung

Senmao Li1, Joost van de Weijer2, Taihang Hu1, Fahad Shahbaz Khan3, Qibin Hou1, Yaxing Wang1(✉), Jian Yang1, Ming-Ming Cheng1

Zusammenfassung

Ein erheblicher Forschungsaufwand konzentriert sich auf die Nutzung der erstaunlichen Fähigkeiten vortrainierter Diffusionsmodelle zur Bearbeitung von Bildern. Diese Methoden entweder feinjustieren das Modell oder invertieren das Bild im latenten Raum des vortrainierten Modells. Allerdings sind sie mit zwei Problemen konfrontiert: (1) Unzufriedenstellende Ergebnisse für ausgewählte Bereiche und unerwartete Veränderungen in nicht ausgewählten Bereichen. (2) Sie erfordern eine sorgfältige Bearbeitung der Textanweisungen, wobei die Anweisung alle visuellen Objekte im Eingangsbild enthalten sollte. Um dies zu beheben, schlagen wir zwei Verbesserungen vor: (1) Die Optimierung der Eingabe des Wertlinearnetzwerks in den Cross-Attention-Schichten ist ausreichend mächtig, um ein reales Bild zu rekonstruieren. (2) Wir schlagen eine Aufmerksamkeitsregularisierung vor, um die objektartigen Aufmerksamkeitskarten nach Rekonstruktion und Bearbeitung zu erhalten, was es uns ermöglicht, genaue Stilbearbeitungen durchzuführen, ohne signifikante strukturelle Veränderungen hervorzurufen. Wir verbessern zudem die Bearbeitungstechnik, die für den unbedingten Ast der klassifikatorfreien Leitung verwendet wird, wie bei P2P angewendet. Ausführliche experimentelle Ergebnisse zur Textanweisungs-Bearbeitung anhand verschiedener Bilder zeigen qualitativ und quantitativ, dass unsere Methode überlegen bearbeitende Fähigkeiten gegenüber bestehenden und zeitgleich entwickelten Arbeiten besitzt. Siehe unseren begleitenden Code in StyleDiffusion: \url{https://github.com/sen-mao/StyleDiffusion}.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp