HyperAIHyperAI
il y a 2 mois

Fonctionnalités de diffusion plug-and-play pour la traduction d'images guidée par le texte

Narek Tumanyan; Michal Geyer; Shai Bagon; Tali Dekel
Fonctionnalités de diffusion plug-and-play pour la traduction d'images guidée par le texte
Résumé

Les modèles génératifs de grande échelle pour la synthèse d'images à partir de texte ont été une percée révolutionnaire dans l'évolution de l'IA générative, nous permettant de créer des images diverses qui transmettent des concepts visuels hautement complexes. Cependant, un défi crucial lors de l'utilisation de ces modèles pour des tâches de création de contenu réel est d'offrir aux utilisateurs un contrôle sur le contenu généré. Dans cet article, nous présentons un nouveau cadre qui étend la synthèse d'images à partir de texte au domaine de la traduction d'image à image – étant donné une image guide et une commande textuelle cible, notre méthode utilise la puissance d'un modèle de diffusion pré-entraîné pour générer une nouvelle image conforme au texte cible tout en préservant la disposition sémantique de l'image source. Plus précisément, nous observons et démontrons empiriquement que le contrôle fin du structure généré peut être réalisé en manipulant les caractéristiques spatiales et leur attention auto-dans le modèle. Ceci aboutit à une approche simple et efficace, où les caractéristiques extraites de l'image guide sont directement injectées dans le processus de génération de l'image cible, sans nécessiter d'entraînement ou d'affinage supplémentaire et pouvant être appliquée aux images guides réelles ou générées. Nous montrons des résultats de haute qualité sur des tâches variées de traduction d'images guidées par du texte, incluant la transformation de croquis, dessins approximatifs et animations en images réalistes, le changement de classe et d'apparence des objets dans une image donnée, ainsi que les modifications des qualités globales telles que l'éclairage et la couleur.

Fonctionnalités de diffusion plug-and-play pour la traduction d'images guidée par le texte | Articles de recherche récents | HyperAI