StyleDiffusion: Prompt-Embedding-Inversion für textbasierte Bearbeitung

Ein erheblicher Forschungsaufwand konzentriert sich auf die Nutzung der erstaunlichen Fähigkeiten vortrainierter Diffusionsmodelle zur Bearbeitung von Bildern. Diese Methoden entweder feinjustieren das Modell oder invertieren das Bild im latenten Raum des vortrainierten Modells. Allerdings sind sie mit zwei Problemen konfrontiert: (1) Unzufriedenstellende Ergebnisse für ausgewählte Bereiche und unerwartete Veränderungen in nicht ausgewählten Bereichen. (2) Sie erfordern eine sorgfältige Bearbeitung der Textanweisungen, wobei die Anweisung alle visuellen Objekte im Eingangsbild enthalten sollte. Um dies zu beheben, schlagen wir zwei Verbesserungen vor: (1) Die Optimierung der Eingabe des Wertlinearnetzwerks in den Cross-Attention-Schichten ist ausreichend mächtig, um ein reales Bild zu rekonstruieren. (2) Wir schlagen eine Aufmerksamkeitsregularisierung vor, um die objektartigen Aufmerksamkeitskarten nach Rekonstruktion und Bearbeitung zu erhalten, was es uns ermöglicht, genaue Stilbearbeitungen durchzuführen, ohne signifikante strukturelle Veränderungen hervorzurufen. Wir verbessern zudem die Bearbeitungstechnik, die für den unbedingten Ast der klassifikatorfreien Leitung verwendet wird, wie bei P2P angewendet. Ausführliche experimentelle Ergebnisse zur Textanweisungs-Bearbeitung anhand verschiedener Bilder zeigen qualitativ und quantitativ, dass unsere Methode überlegen bearbeitende Fähigkeiten gegenüber bestehenden und zeitgleich entwickelten Arbeiten besitzt. Siehe unseren begleitenden Code in StyleDiffusion: \url{https://github.com/sen-mao/StyleDiffusion}.