HyperAIHyperAI

Command Palette

Search for a command to run...

Inversion de texte nulle pour l’édition d’images réelles à l’aide de modèles de diffusion guidée

Ron Mokady† 1,2 Amir Hertz† 1,2 Kfir Aberman1 Yael Pritch1 Daniel Cohen-Or† 1,2

Résumé

Les modèles de diffusion guidés par le texte récents offrent des capacités puissantes de génération d'images. Actuellement, un effort considérable est consacré à la modification de ces images uniquement à l'aide du texte, afin de proposer une édition intuitive et polyvalente. Pour modifier une image réelle en utilisant ces outils de pointe, il faut d'abord inverser l'image avec une invite textuelle pertinente dans le domaine du modèle préentraîné. Dans cet article, nous introduisons une technique d'inversion précise qui facilite ainsi une modification textuelle intuitive de l'image. Notre inversion proposée se compose de deux nouveaux éléments clés : (i) L'inversion pivotale pour les modèles de diffusion. Alors que les méthodes actuelles visent à mapper des échantillons de bruit aléatoire à une seule image d'entrée, nous utilisons un seul vecteur de bruit pivot pour chaque timestamp et optimisons autour de celui-ci. Nous démontrons qu'une inversion directe est insuffisante en elle-même, mais fournit un bon point d'ancrage pour notre optimisation. (ii) L'optimisation NULL-text, où nous ne modifions que l'emplacement textuel inconditionnel utilisé pour la guidance sans classifieur, plutôt que l'emplacement textuel conditionnel d'entrée. Cela permet de conserver tant les poids du modèle que l'emplacement conditionnel intactes, ce qui permet d'appliquer des modifications basées sur des invites tout en évitant l'ajustement fastidieux des poids du modèle. Notre inversion NULL-text, basée sur le modèle Stable Diffusion publiquement disponible, est évaluée en détail sur diverses images et modifications d'invites, montrant une édition haute fidélité d'images réelles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp