Neupositionierung des Subjekts innerhalb des Bildes

Die derzeitige Bildmanipulation konzentriert sich hauptsächlich auf statische Manipulationen, wie beispielsweise die Ersetzung bestimmter Bereiche innerhalb eines Bildes oder die Veränderung seines Gesamtstils. In diesem Paper stellen wir eine innovative dynamische Manipulationsaufgabe vor: die Objektneupositionierung. Diese Aufgabe beinhaltet die Verschiebung eines vom Benutzer spezifizierten Objekts an eine gewünschte Position unter Beibehaltung der Bildtreue. Unsere Forschung zeigt, dass die grundlegenden Teilaspekte der Objektneupositionierung – nämlich das Ausfüllen der Lücke, die durch die Verschiebung entsteht, die Rekonstruktion verdeckter Teile des Objekts sowie die nahtlose Integration des Objekts in die umgebenden Bereiche – effektiv als eine einheitliche, promptgesteuerte Inpainting-Aufgabe formuliert werden können. Hierdurch können wir ein einziges Diffusionsgenerativmodell nutzen, um diese Teilaspekte mit Hilfe verschiedener Aufgabenprompts zu lösen, die mittels unserer vorgeschlagenen Task-Inversionstechnik erlernt wurden. Zudem integrieren wir prä- und postverarbeitende Techniken, um die Qualität der Objektneupositionierung weiter zu verbessern. Zusammen bilden diese Komponenten unseren SEgment-gEnerate-and-bLEnd (SEELE)-Framework. Um die Wirksamkeit von SEELE bei der Objektneupositionierung zu bewerten, haben wir eine realweltbasierte Datensammlung für Objektneupositionierung namens ReS zusammengestellt. Die Ergebnisse von SEELE auf ReS belegen dessen Effektivität. Der Quellcode und die ReS-Datensammlung sind unter https://yikai-wang.github.io/seele/ verfügbar.