Inversion de texte nulle pour l’édition d’images réelles à l’aide de modèles de diffusion guidée

Les modèles de diffusion guidés par le texte récents offrent des capacités puissantes de génération d'images. Actuellement, un effort considérable est consacré à la modification de ces images uniquement à l'aide du texte, afin de proposer une édition intuitive et polyvalente. Pour modifier une image réelle en utilisant ces outils de pointe, il faut d'abord inverser l'image avec une invite textuelle pertinente dans le domaine du modèle préentraîné. Dans cet article, nous introduisons une technique d'inversion précise qui facilite ainsi une modification textuelle intuitive de l'image. Notre inversion proposée se compose de deux nouveaux éléments clés : (i) L'inversion pivotale pour les modèles de diffusion. Alors que les méthodes actuelles visent à mapper des échantillons de bruit aléatoire à une seule image d'entrée, nous utilisons un seul vecteur de bruit pivot pour chaque timestamp et optimisons autour de celui-ci. Nous démontrons qu'une inversion directe est insuffisante en elle-même, mais fournit un bon point d'ancrage pour notre optimisation. (ii) L'optimisation NULL-text, où nous ne modifions que l'emplacement textuel inconditionnel utilisé pour la guidance sans classifieur, plutôt que l'emplacement textuel conditionnel d'entrée. Cela permet de conserver tant les poids du modèle que l'emplacement conditionnel intactes, ce qui permet d'appliquer des modifications basées sur des invites tout en évitant l'ajustement fastidieux des poids du modèle. Notre inversion NULL-text, basée sur le modèle Stable Diffusion publiquement disponible, est évaluée en détail sur diverses images et modifications d'invites, montrant une édition haute fidélité d'images réelles.