HyperAIHyperAI
il y a 2 mois

Édition d'images sans inversion avec langage naturel

Sihan Xu; Yidong Huang; Jiayi Pan; Ziqiao Ma; Joyce Chai
Édition d'images sans inversion avec langage naturel
Résumé

Malgré les récentes avancées dans l'édition basée sur l'inversion, la manipulation d'images guidée par du texte reste un défi pour les modèles de diffusion. Les principaux goulets d'étranglement incluent : 1) la nature chronophage du processus d'inversion ; 2) la difficulté à équilibrer cohérence et précision ; 3) le manque de compatibilité avec les méthodes d'échantillonnage de cohérence efficaces utilisées dans les modèles de cohérence. Pour résoudre ces problèmes, nous nous interrogeons sur la possibilité d'éliminer le processus d'inversion pour l'édition. Nous montrons que lorsque l'échantillon initial est connu, un programme de variance spécial réduit l'étape de débruitage à une forme identique à celle de l'échantillonnage de cohérence en plusieurs étapes. Nous nommons ce modèle Denoising Diffusion Consistent Model (DDCM) et soulignons qu'il implique une stratégie d'inversion virtuelle sans inversion explicite lors de l'échantillonnage. Nous unifions ensuite les mécanismes de contrôle de l'attention dans un cadre exempt d'ajustement pour l'édition guidée par du texte. En combinant ces éléments, nous présentons InfEdit, une méthode d'édition sans inversion, qui permet des modifications cohérentes et fidèles, tant pour les changements sémantiques rigides que non rigides, répondant ainsi aux modifications complexes tout en préservant l'intégrité et évitant l'inversion explicite de l'image. À travers des expériences approfondies, InfEdit montre des performances solides dans diverses tâches d'édition et maintient également un flux de travail fluide (moins de 3 secondes sur une seule carte A40), démontrant son potentiel pour des applications en temps réel. Page du projet : https://sled-group.github.io/InfEdit/

Édition d'images sans inversion avec langage naturel | Articles de recherche récents | HyperAI