HyperAIHyperAI
il y a 2 mois

Traduction d'image à image sans apprentissage supervisionné

Gaurav Parmar; Krishna Kumar Singh; Richard Zhang; Yijun Li; Jingwan Lu; Jun-Yan Zhu
Traduction d'image à image sans apprentissage supervisionné
Résumé

Les modèles génératifs de grande échelle pour la conversion texte-image ont démontré leur remarquable capacité à synthétiser des images diverses et de haute qualité. Cependant, il reste difficile d'appliquer directement ces modèles à l'édition d'images réelles pour deux raisons principales. Premièrement, il est ardu pour les utilisateurs de formuler un prompt textuel parfait qui décrit avec précision chaque détail visuel de l'image d'entrée. Deuxièmement, bien que les modèles existants puissent introduire des modifications souhaitées dans certaines régions, ils altèrent souvent considérablement le contenu d'entrée et apportent des changements inattendus dans des zones non désirées.Dans cette étude, nous proposons pix2pix-zero, une méthode de traduction image-image capable de préserver le contenu de l'image originale sans intervention manuelle pour les prompts. Nous commençons par découvrir automatiquement des directions d'édition qui reflètent les modifications souhaitées dans l'espace d'embedding textuel. Pour préserver la structure générale du contenu après l'édition, nous proposons également une guidance par attention croisée, visant à maintenir les cartes d'attention croisée de l'image d'entrée tout au long du processus de diffusion.De plus, notre méthode n'a pas besoin d'un entraînement supplémentaire pour ces éditions et peut utiliser directement le modèle pré-entraîné existant pour la conversion texte-image. Nous menons des expériences approfondies et montrons que notre méthode surpasse les travaux existants et concurrents tant pour l'édition d'images réelles que synthétiques.

Traduction d'image à image sans apprentissage supervisionné | Articles de recherche récents | HyperAI