HyperAIHyperAI

Command Palette

Search for a command to run...

LazyDrag : Permettre une édition par glissement stable sur les transformateurs à diffusion multimodaux grâce à une correspondance explicite

Zixin Yin Xili Dai Duomin Wang Xianfang Zeng Lionel M. Ni Gang Yu Heung-Yeung Shum

Résumé

Le recours au correspondance implicite des points via l’attention s’est imposé comme un goulot d’étranglement fondamental dans les méthodes d’édition par glissement (drag-based editing), entraînant un compromis essentiel entre une force d’inversion affaiblie et une optimisation coûteuse au moment du test (TTO, test-time optimization). Ce compromis limite sévèrement les capacités génératives des modèles de diffusion, en supprimant notamment les capacités d’insertion de haute fidélité et de création guidée par texte. Dans cet article, nous introduisons LazyDrag, la première méthode d’édition d’images par glissement conçue pour les transformateurs de diffusion multimodaux, qui élimine directement la dépendance à la correspondance implicite des points. Plus précisément, notre méthode génère une carte de correspondance explicite à partir des entrées utilisateur issues du glissement, servant de référence fiable pour renforcer le contrôle de l’attention. Cette référence fiable ouvre la voie à un processus d’inversion stable à pleine puissance, première réalisation de ce type dans le cadre de l’édition par glissement. Elle rend inutile la TTO et libère pleinement les capacités génératives des modèles. Ainsi, LazyDrag intègre naturellement un contrôle géométrique précis avec une guidance textuelle, permettant des éditions complexes jusque-là inaccessibles : ouvrir la bouche d’un chien et remplir son intérieur, générer de nouveaux objets tels qu’une « balle de tennis », ou effectuer des modifications contextuelles pour des glissements ambigus, comme glisser une main dans une poche. En outre, LazyDrag prend en charge des workflows itératifs multiples incluant des opérations simultanées de déplacement et de mise à l’échelle. Évaluée sur le benchmark DragBench, notre méthode surpasser les états de l’art en termes de précision du glissement et de qualité perceptive, comme le confirment le score VIEScore et les évaluations humaines. LazyDrag établit non seulement de nouvelles performances de pointe, mais ouvre également une nouvelle voie aux paradigmes d’édition.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
LazyDrag : Permettre une édition par glissement stable sur les transformateurs à diffusion multimodaux grâce à une correspondance explicite | Articles | HyperAI