HyperAIHyperAI

Command Palette

Search for a command to run...

FastComposer : Génération d'images multi-sujets sans réglage avec attention localisée

Xiao Guangxuan ; Yin Tianwei ; Freeman William T. ; Durand Frédo ; Han Song

Résumé

Les modèles de diffusion excel dans la génération d'images à partir de texte, en particulier pour la génération d'images personnalisées basée sur des sujets spécifiques. Cependant, les méthodes existantes sont inefficaces en raison du réglage fin spécifique au sujet, qui est très coûteux en termes de calcul et entrave un déploiement efficace. De plus, ces méthodes peinent à générer des images avec plusieurs sujets car elles tendent à mélanger leurs caractéristiques.Nous présentons FastComposer, une méthode permettant une génération d'images à partir de texte efficace, personnalisée et multi-sujet sans nécessiter de réglage fin. FastComposer utilise des plongements (embeddings) de sujets extraits par un encodeur d'image pour enrichir le conditionnement textuel générique dans les modèles de diffusion, ce qui permet une génération d'images personnalisées basée sur des images de sujets et des instructions textuelles avec uniquement des passes avant (forward passes).Pour résoudre le problème de mélange d'identités lors de la génération multi-sujet, FastComposer propose une supervision de localisation par l'attention croisée pendant l'entraînement, forçant l'attention des sujets de référence à être localisée aux régions correctes dans les images cibles. Un conditionnement naïf sur les plongements de sujets entraîne un surajustement (overfitting) du sujet. FastComposer propose donc un conditionnement retardé du sujet lors de l'étape de débruitage afin de maintenir à la fois l'identité et la facilité d'édition dans la génération d'images basée sur des sujets.FastComposer génère des images d'individus multiples inconnus avec différents styles, actions et contextes. Il offre une accélération allant jusqu'à 2500 fois par rapport aux méthodes basées sur le réglage fin et ne nécessite aucune stockage supplémentaire pour les nouveaux sujets. FastComposer ouvre ainsi la voie à une création d'images multi-sujet efficace, personnalisée et de haute qualité. Le code source, le modèle et le jeu de données sont disponibles à l'adresse suivante : https://github.com/mit-han-lab/fastcomposer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp