HyperAIHyperAI

Command Palette

Search for a command to run...

Édition d'images de prompt à prompt avec contrôle de l'attention croisée

Amir Hertz*1,2, Ron Mokady*1,2, Jay Tenenbaum1, Kfir Aberman1, Yael Pritch1, and Daniel Cohen-Or*1,2

Résumé

Les modèles récents de synthèse d'images à grande échelle guidés par le texte ont attiré beaucoup d'attention grâce à leurs capacités remarquables à générer des images hautement diverses qui suivent les instructions textuelles données. Ces méthodes de synthèse basées sur le texte sont particulièrement attrayantes pour les humains habitués à décrire verbalement leurs intentions. Il est donc naturel d'étendre la synthèse d'images guidée par le texte à l'édition d'images guidée par le texte. L'édition représente un défi pour ces modèles génératifs, car une propriété inhérente d'une technique d'édition est de préserver la majorité de l'image originale, tandis que dans les modèles basés sur le texte, même une petite modification du prompt textuel peut souvent entraîner un résultat complètement différent. Les méthodes les plus avancées atténuent ce problème en demandant aux utilisateurs de fournir un masque spatial pour localiser l'édition, ignorant ainsi la structure et le contenu originaux au sein de la région masquée. Dans cet article, nous poursuivons le développement d'un cadre intuitif d'édition prompt-to-prompt, où les modifications sont contrôlées uniquement par le texte. À cette fin, nous analysons en profondeur un modèle conditionné par le texte et observons que les couches de cross-attention sont essentielles pour contrôler la relation entre la disposition spatiale de l'image et chaque mot du prompt. Grâce à cette observation, nous présentons plusieurs applications qui surveillent la synthèse d'images en modifiant uniquement le prompt textuel. Cela inclut l'édition localisée en remplaçant un mot, l'édition globale en ajoutant une spécification, et même le contrôle subtil de l'ampleur avec laquelle un mot est reflété dans l'image. Nous présentons nos résultats sur des images et des prompts variés, démontrant une synthèse de haute qualité et une fidélité aux prompts modifiés.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp