HyperAIHyperAI
il y a 2 mois

FastComposer : Génération d'images multi-sujets sans réglage avec attention localisée

Xiao, Guangxuan ; Yin, Tianwei ; Freeman, William T. ; Durand, Frédo ; Han, Song
FastComposer : Génération d'images multi-sujets sans réglage avec attention localisée
Résumé

Les modèles de diffusion excel dans la génération d'images à partir de texte, en particulier pour la génération d'images personnalisées basée sur des sujets spécifiques. Cependant, les méthodes existantes sont inefficaces en raison du réglage fin spécifique au sujet, qui est très coûteux en termes de calcul et entrave un déploiement efficace. De plus, ces méthodes peinent à générer des images avec plusieurs sujets car elles tendent à mélanger leurs caractéristiques.Nous présentons FastComposer, une méthode permettant une génération d'images à partir de texte efficace, personnalisée et multi-sujet sans nécessiter de réglage fin. FastComposer utilise des plongements (embeddings) de sujets extraits par un encodeur d'image pour enrichir le conditionnement textuel générique dans les modèles de diffusion, ce qui permet une génération d'images personnalisées basée sur des images de sujets et des instructions textuelles avec uniquement des passes avant (forward passes).Pour résoudre le problème de mélange d'identités lors de la génération multi-sujet, FastComposer propose une supervision de localisation par l'attention croisée pendant l'entraînement, forçant l'attention des sujets de référence à être localisée aux régions correctes dans les images cibles. Un conditionnement naïf sur les plongements de sujets entraîne un surajustement (overfitting) du sujet. FastComposer propose donc un conditionnement retardé du sujet lors de l'étape de débruitage afin de maintenir à la fois l'identité et la facilité d'édition dans la génération d'images basée sur des sujets.FastComposer génère des images d'individus multiples inconnus avec différents styles, actions et contextes. Il offre une accélération allant jusqu'à 2500 fois par rapport aux méthodes basées sur le réglage fin et ne nécessite aucune stockage supplémentaire pour les nouveaux sujets. FastComposer ouvre ainsi la voie à une création d'images multi-sujet efficace, personnalisée et de haute qualité. Le code source, le modèle et le jeu de données sont disponibles à l'adresse suivante : https://github.com/mit-han-lab/fastcomposer.

FastComposer : Génération d'images multi-sujets sans réglage avec attention localisée | Articles de recherche récents | HyperAI