HyperAIHyperAI
il y a 2 mois

PhotoMaker : Personnalisation de photos réalistes d'humains par l'embedding d'ID empilé

Li, Zhen ; Cao, Mingdeng ; Wang, Xintao ; Qi, Zhongang ; Cheng, Ming-Ming ; Shan, Ying
PhotoMaker : Personnalisation de photos réalistes d'humains par l'embedding d'ID empilé
Résumé

Les récentes avancées dans la génération d'images à partir de texte ont permis des progrès remarquables dans la synthèse de photographies humaines réalistes conditionnées par des instructions textuelles. Cependant, les méthodes actuelles de génération personnalisée ne peuvent pas simultanément satisfaire aux exigences d'efficacité élevée, de fidélité prometteuse de l'identité (ID) et de contrôlabilité textuelle flexible. Dans ce travail, nous présentons PhotoMaker, une méthode efficace de génération d'images à partir de texte personnalisée, qui encode principalement un nombre arbitraire d'images ID d'entrée dans une empreinte ID empilée pour préserver les informations d'identité. Une telle empreinte, servant comme représentation ID unifiée, peut non seulement encapsuler les caractéristiques du même ID d'entrée de manière exhaustive, mais aussi accommoder les caractéristiques d'IDs différents pour une intégration ultérieure. Ceci ouvre la voie à des applications plus intéressantes et pratiquement précieuses. De plus, pour guider l'entraînement de notre PhotoMaker, nous proposons une pipeline de construction de données orientée ID pour assembler les données d'entraînement. Grâce à l'alimentation du jeu de données construit via cette pipeline proposée, notre PhotoMaker montre une meilleure capacité de préservation de l'ID que les méthodes basées sur le fine-tuning en temps de test, tout en offrant des améliorations significatives en termes de vitesse, des résultats générés de haute qualité, des capacités généralisées robustes et une large gamme d'applications. Notre page du projet est disponible à l'adresse suivante : https://photo-maker.github.io/