HyperAIHyperAI
il y a 2 mois

Inversion de prompt négatif : Inversion d'image rapide pour l'édition avec des modèles de diffusion guidés par le texte

Daiki Miyake; Akihiro Iohara; Yu Saito; Toshiyuki Tanaka
Inversion de prompt négatif : Inversion d'image rapide pour l'édition avec des modèles de diffusion guidés par le texte
Résumé

Dans le domaine de l'édition d'images utilisant des modèles de diffusion, il est crucial de préserver la fidélité à l'image originale tout en modifiant son style. Bien que les méthodes existantes assurent cette fidélité par l'optimisation, un inconvénient majeur est le temps considérable nécessaire pour effectuer cette optimisation. Dans cet article, nous proposons une méthode d'inversion par prompt négatif, capable d'atteindre une reconstruction équivalente uniquement par propagation avant sans recourir à l'optimisation, permettant ainsi des processus d'édition ultra-rapides. Nous démontrons expérimentalement que la fidélité de reconstruction de notre méthode est comparable à celle des méthodes existantes, permettant une inversion à une résolution de 512 pixels et avec 50 étapes d'échantillonnage en environ 5 secondes, ce qui est plus de 30 fois plus rapide que l'inversion par texte nul (null-text inversion). La réduction du temps de calcul apportée par notre méthode nous permet également d'utiliser un nombre plus élevé d'étapes d'échantillonnage dans les modèles de diffusion pour améliorer la fidélité de reconstruction avec une augmentation modérée du temps de calcul.