KV-Edit: trainingsfreies Bildbearbeitung für präzise Hintergrundbewahrung

Die Konsistenz des Hintergrunds bleibt eine bedeutende Herausforderung bei Aufgaben der Bildbearbeitung. Trotz umfangreicher Entwicklungen stehen bestehende Ansätze weiterhin vor einem Kompromiss zwischen der Aufrechterhaltung der Ähnlichkeit zum Originalbild und der Generierung von Inhalten, die mit dem Ziel übereinstimmen. Hier präsentieren wir KV-Edit, einen trainingsfreien Ansatz, der die Key-Value (KV)-Cache-Technologie in Diffusion Image Transformers (DiTs) nutzt, um die Hintergrundkonsistenz zu bewahren. Dabei werden Hintergrund-Token nicht neu generiert, sondern erhalten, wodurch komplexe Mechanismen oder kostenintensives Training entfallen. Dadurch gelingt es, neuen Inhalt nahtlos in den Hintergrund innerhalb benutzerdefinierter Regionen zu integrieren. Wir untersuchen zudem den Speicherverbrauch des KV-Caches während der Bearbeitung und optimieren die Raumkomplexität mittels einer trainingsfreien Methode auf O(1). Unser Ansatz ist mit jeder auf DiT basierenden generativen Modellarchitektur kompatibel, ohne zusätzliche Trainingsschritte erforderlich zu machen. Experimente zeigen, dass KV-Edit bestehende Ansätze sowohl hinsichtlich der Hintergrundkonsistenz als auch der Bildqualität erheblich übertrifft – sogar trainingsbasierte Methoden. Die Projektwebseite ist unter https://xilluill.github.io/projectpages/KV-Edit verfügbar.