HyperAIHyperAI
vor 5 Tagen

LazyDrag: Stabile, ziehbasierte Bearbeitung auf multimodalen Diffusions-Transformern durch explizite Korrespondenz

Zixin Yin, Xili Dai, Duomin Wang, Xianfang Zeng, Lionel M. Ni, Gang Yu, Heung-Yeung Shum
LazyDrag: Stabile, ziehbasierte Bearbeitung auf multimodalen Diffusions-Transformern durch explizite Korrespondenz
Abstract

Die Abhängigkeit von implizitem Punktmatching über Aufmerksamkeit ist zu einem zentralen Engpass bei drag-basierten Bearbeitungsmethoden geworden und führt zu einem grundlegenden Kompromiss zwischen geschwächter Inversionstärke und kostspieliger Optimierung zur Testzeit (TTO). Dieser Kompromiss begrenzt die generativen Fähigkeiten von Diffusionsmodellen erheblich und unterdrückt hochauflösende Inpainting- und textgesteuerte Generierung. In diesem Artikel stellen wir LazyDrag vor, die erste drag-basierte Bildbearbeitungsmethode für Multimodale Diffusions-Transformers, die die Abhängigkeit von implizitem Punktmatching direkt beseitigt. Konkret generiert unsere Methode aus Benutzer-Drag-Eingaben eine explizite Korrespondenzkarte, die als zuverlässiger Referenzrahmen zur Verbesserung der Aufmerksamkeitssteuerung dient. Diese zuverlässige Referenz eröffnet die Möglichkeit eines stabilen Inversionsprozesses mit voller Stärke – erstmals in der drag-basierten Bildbearbeitung. Dadurch entfällt die Notwendigkeit einer TTO und die generativen Fähigkeiten der Modelle werden freigelegt. LazyDrag vereint daher nahtlos präzise geometrische Kontrolle mit textgesteuerter Anleitung und ermöglicht komplexe Bearbeitungen, die bisher unerreichbar waren: das Öffnen des Mundes eines Hundes und das Inpainting seines Inneren, die Generierung neuer Objekte wie eines „Tennisballs“ oder kontextbewusste Änderungen bei mehrdeutigen Drag-Bewegungen, beispielsweise das Einführen einer Hand in die Tasche. Zudem unterstützt LazyDrag mehrstufige Arbeitsabläufe mit gleichzeitigen Verschiebungs- und Skalierungsoperationen. Auf der Benchmark DragBench zeigt unsere Methode eine überlegene Leistung in Bezug auf Drag-Accuracy und perceptuelle Qualität, wie sowohl durch den VIEScore als auch durch menschliche Bewertungen bestätigt wurde. LazyDrag etabliert nicht nur eine neue state-of-the-art-Leistung, sondern eröffnet auch einen neuen Weg für Bildbearbeitungsparadigmen.