LazyDrag : Permettre une édition par glissement stable sur les transformateurs à diffusion multimodaux grâce à une correspondance explicite

Le recours au correspondance implicite des points via l’attention s’est imposé comme un goulot d’étranglement fondamental dans les méthodes d’édition par glissement (drag-based editing), entraînant un compromis essentiel entre une force d’inversion affaiblie et une optimisation coûteuse au moment du test (TTO, test-time optimization). Ce compromis limite sévèrement les capacités génératives des modèles de diffusion, en supprimant notamment les capacités d’insertion de haute fidélité et de création guidée par texte. Dans cet article, nous introduisons LazyDrag, la première méthode d’édition d’images par glissement conçue pour les transformateurs de diffusion multimodaux, qui élimine directement la dépendance à la correspondance implicite des points. Plus précisément, notre méthode génère une carte de correspondance explicite à partir des entrées utilisateur issues du glissement, servant de référence fiable pour renforcer le contrôle de l’attention. Cette référence fiable ouvre la voie à un processus d’inversion stable à pleine puissance, première réalisation de ce type dans le cadre de l’édition par glissement. Elle rend inutile la TTO et libère pleinement les capacités génératives des modèles. Ainsi, LazyDrag intègre naturellement un contrôle géométrique précis avec une guidance textuelle, permettant des éditions complexes jusque-là inaccessibles : ouvrir la bouche d’un chien et remplir son intérieur, générer de nouveaux objets tels qu’une « balle de tennis », ou effectuer des modifications contextuelles pour des glissements ambigus, comme glisser une main dans une poche. En outre, LazyDrag prend en charge des workflows itératifs multiples incluant des opérations simultanées de déplacement et de mise à l’échelle. Évaluée sur le benchmark DragBench, notre méthode surpasser les états de l’art en termes de précision du glissement et de qualité perceptive, comme le confirment le score VIEScore et les évaluations humaines. LazyDrag établit non seulement de nouvelles performances de pointe, mais ouvre également une nouvelle voie aux paradigmes d’édition.