HyperAIHyperAI
vor 2 Monaten

Inversionsfreie Bildbearbeitung mit natürlicher Sprache

Sihan Xu; Yidong Huang; Jiayi Pan; Ziqiao Ma; Joyce Chai
Inversionsfreie Bildbearbeitung mit natürlicher Sprache
Abstract

Trotz der jüngsten Fortschritte bei inversen Bearbeitungsmethoden bleibt die textgesteuerte Bildmanipulation für Diffusionsmodelle eine Herausforderung. Die wichtigsten Engpässe sind: 1) die zeitaufwendige Natur des Invertierungsprozesses; 2) die Schwierigkeit, Konsistenz und Genauigkeit auszugleichen; 3) das Fehlen der Kompatibilität mit effizienten Konsistenztastverfahren, die in Konsistenzmodellen verwendet werden. Um diese Probleme zu lösen, fragen wir uns zunächst, ob der Invertierungsprozess für die Bearbeitung eliminiert werden kann. Wir zeigen, dass bei bekanntem Anfangsstichprobe ein spezieller Varianzplan den Entrauschungsschritt in dieselbe Form wie das mehrstufige Konsistenztastverfahren reduziert. Wir nennen dieses Modell den „Denoising Diffusion Consistent Model“ (DDCM) und bemerken, dass es eine virtuelle Invertierungsstrategie impliziert, ohne explizite Invertierung während des Sammelns. Weiterhin vereinigen wir die Aufmerksamkeitssteuerungsmechanismen in einem einstellungslosen Rahmenwerk für textgesteuerte Bearbeitung. Durch ihre Kombination präsentieren wir die invertierungsfreie Bearbeitung (InfEdit), die konsistente und treue Bearbeitungen sowohl für starre als auch für nicht-starre semantische Änderungen ermöglicht und dabei auf die Integrität und explizite Invertierung des Bildes keinen Einfluss hat. Durch umfangreiche Experimente zeigt InfEdit starke Leistung bei verschiedenen Bearbeitungsaufgaben und gewährleistet einen nahtlosen Workflow (weniger als 3 Sekunden auf einem einzelnen A40), was das Potenzial für Echtzeitanwendungen demonstriert. Projektseite: https://sled-group.github.io/InfEdit/

Inversionsfreie Bildbearbeitung mit natürlicher Sprache | Neueste Forschungsarbeiten | HyperAI