HyperAIHyperAI

Command Palette

Search for a command to run...

StyleDiffusion : Inversion de l'Embedding des Prompts pour l'Édition Basée sur le Texte

Senmao Li1, Joost van de Weijer2, Taihang Hu1, Fahad Shahbaz Khan3, Qibin Hou1, Yaxing Wang1(✉), Jian Yang1, Ming-Ming Cheng1

Résumé

Un effort de recherche important est consacré à l'exploitation des capacités remarquables des modèles de diffusion préentraînés pour l'édition d'images. Ces méthodes consistent soit à affiner le modèle, soit à inverser l'image dans l'espace latent du modèle préentraîné. Cependant, elles souffrent de deux problèmes : (1) Des résultats insatisfaisants pour les régions sélectionnées et des modifications inattendues dans les régions non sélectionnées. (2) Elles nécessitent une édition minutieuse des prompts textuels, où le prompt doit inclure tous les objets visuels présents dans l'image d'entrée. Pour remédier à ces problèmes, nous proposons deux améliorations : (1) L'optimisation seule de l'entrée du réseau linéaire de valeur dans les couches d'attention croisée est suffisamment puissante pour reconstruire une image réelle. (2) Nous proposons une régularisation de l'attention pour préserver les cartes d'attention ressemblant à des objets après la reconstruction et l'édition, ce qui nous permet d'obtenir une édition stylistique précise sans provoquer de changements structurels importants. Nous améliorons également la technique d'édition utilisée pour la branche inconditionnelle de la guidance sans classificateur, telle que mise en œuvre par P2P. De nombreux résultats expérimentaux sur une variété d'images démontrent qualitativement et quantitativement que notre méthode possède des capacités d'édition supérieures par rapport aux travaux existants et concurrents. Voir notre code accompagnant dans Stylediffusion : \url{https://github.com/sen-mao/StyleDiffusion}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp