HyperAIHyperAI

Command Palette

Search for a command to run...

LazyDrag: Stabile, ziehbasierte Bearbeitung auf multimodalen Diffusions-Transformern durch explizite Korrespondenz

Zixin Yin Xili Dai Duomin Wang Xianfang Zeng Lionel M. Ni Gang Yu Heung-Yeung Shum

Zusammenfassung

Die Abhängigkeit von implizitem Punktmatching über Aufmerksamkeit ist zu einem zentralen Engpass bei drag-basierten Bearbeitungsmethoden geworden und führt zu einem grundlegenden Kompromiss zwischen geschwächter Inversionstärke und kostspieliger Optimierung zur Testzeit (TTO). Dieser Kompromiss begrenzt die generativen Fähigkeiten von Diffusionsmodellen erheblich und unterdrückt hochauflösende Inpainting- und textgesteuerte Generierung. In diesem Artikel stellen wir LazyDrag vor, die erste drag-basierte Bildbearbeitungsmethode für Multimodale Diffusions-Transformers, die die Abhängigkeit von implizitem Punktmatching direkt beseitigt. Konkret generiert unsere Methode aus Benutzer-Drag-Eingaben eine explizite Korrespondenzkarte, die als zuverlässiger Referenzrahmen zur Verbesserung der Aufmerksamkeitssteuerung dient. Diese zuverlässige Referenz eröffnet die Möglichkeit eines stabilen Inversionsprozesses mit voller Stärke – erstmals in der drag-basierten Bildbearbeitung. Dadurch entfällt die Notwendigkeit einer TTO und die generativen Fähigkeiten der Modelle werden freigelegt. LazyDrag vereint daher nahtlos präzise geometrische Kontrolle mit textgesteuerter Anleitung und ermöglicht komplexe Bearbeitungen, die bisher unerreichbar waren: das Öffnen des Mundes eines Hundes und das Inpainting seines Inneren, die Generierung neuer Objekte wie eines „Tennisballs“ oder kontextbewusste Änderungen bei mehrdeutigen Drag-Bewegungen, beispielsweise das Einführen einer Hand in die Tasche. Zudem unterstützt LazyDrag mehrstufige Arbeitsabläufe mit gleichzeitigen Verschiebungs- und Skalierungsoperationen. Auf der Benchmark DragBench zeigt unsere Methode eine überlegene Leistung in Bezug auf Drag-Accuracy und perceptuelle Qualität, wie sowohl durch den VIEScore als auch durch menschliche Bewertungen bestätigt wurde. LazyDrag etabliert nicht nur eine neue state-of-the-art-Leistung, sondern eröffnet auch einen neuen Weg für Bildbearbeitungsparadigmen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LazyDrag: Stabile, ziehbasierte Bearbeitung auf multimodalen Diffusions-Transformern durch explizite Korrespondenz | Paper | HyperAI